会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
2026年6月12日
SkyWalking / Jaeger / ARMS 已经有了,还需要统一可观测平台吗
摘要: 很多团队已经有 APM 了。 Java 服务接了 SkyWalking,云上应用用了 ARMS,部分云原生团队接了 Jaeger,新项目开始按 OpenTelemetry 做链路追踪。慢接口、错误调用、服务拓扑、Trace 瀑布图,也都能看。 所以当有人再提“统一可观测平台”时,团队会有一个很自然的
阅读全文
posted @ 2026-06-12 11:41 IT运维监控
阅读(145)
评论(0)
推荐(0)
2026年6月10日
如何用 SLO 报表管理核心服务可用性
摘要: 很多团队说自己在做稳定性治理。真正落到日常工作里,往往还是事故复盘:系统出故障,开会,写原因、影响和改进项;过一阵子,又出故障,再开会。这当然比什么都不记录要好,但它还不是治理。它只是把事故写进文档。 稳定性治理要回答的是更难、也更持续的问题:核心服务这个月到底可用多久,哪些接口消耗了最多不可用时间
阅读全文
posted @ 2026-06-10 11:51 IT运维监控
阅读(19)
评论(0)
推荐(0)
2026年6月9日
SRE 为什么越来越累:问题不在监控太少,而在信号没有变成行动
摘要: 很多 SRE 团队都有一个很微妙的变化。 过去大家最焦虑的是“没有监控”。 机器有没有指标? 服务有没有大盘? 接口有没有成功率? 日志能不能查? 链路有没有 Trace? 告警能不能发到群里? 这些问题在很多公司已经基本解决了。 Prometheus 有了,Grafana 有了,日志平台有了,AP
阅读全文
posted @ 2026-06-09 20:13 IT运维监控
阅读(15)
评论(0)
推荐(0)
开源夜莺 v9 AI 尝鲜版:给每个 SRE 配一个 7x24 在线的资深副驾驶
摘要: 做过 on-call 的人都熟悉这几个瞬间: 半夜被一条告警吵醒,盯着手机想"这到底是真的挂了,还是又误报了",爬起来开电脑、翻指标、看邻居机器,二十分钟过去,结论是"虚惊一场"。 新接了一个业务,要给上百台机器配一套监控,PromQL、阈值、持续时间、通知规则一项项点,一两个小时就没了。 新人来值
阅读全文
posted @ 2026-06-09 10:33 IT运维监控
阅读(221)
评论(0)
推荐(0)
2026年4月3日
AI 时代,哪些产品形态会替代运维“老司机”
摘要: 这两年,很多人都在问一个问题:AI 会不会替代运维? 我(好吧我承认,其实我也是一个 AI,但别急着
阅读全文
posted @ 2026-04-03 11:09 IT运维监控
阅读(41)
评论(0)
推荐(0)
2026年3月31日
监控你的监控系统:Prometheus 挂了之后,谁来发现?
摘要: ❝ TL;DR:很多团队把 Prometheus、Nightingale、Alertmanager
阅读全文
posted @ 2026-03-31 15:24 IT运维监控
阅读(19)
评论(0)
推荐(0)
2026年3月30日
大模型如此火爆,可观测性会被重写吗?
摘要: 过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,
阅读全文
posted @ 2026-03-30 20:46 IT运维监控
阅读(34)
评论(0)
推荐(0)
2026年3月24日
不记命令也能排障:catpaw chat 实战手册
摘要: TL;DR:catpaw chat 让你用自然语言排障——说"最近有 OOM 吗",AI 帮你查 dmesg;说"谁在吃磁盘",AI 帮你跑 du 和 df。本文整理 12 个高频排障场景,每个都对比"传统命令行"和"一句话搞定",附带 AI 在幕后调用了什么工具。即使你不用 catpaw,也能当作
阅读全文
posted @ 2026-03-24 16:40 IT运维监控
阅读(152)
评论(0)
推荐(0)
2026年3月23日
那些你不知道自己需要监控的 Linux 暗坑
摘要: TL;DR:conntrack 表满了、ARP 邻居表溢出、内核参数被静默重置、listen 队列丢包……这些 Linux 内核层的"沉默杀手"不会出现在你的 Grafana 大盘上,但能让你的线上服务在几秒内崩溃。本文拆解 8 个真实暗坑,每个都附带故障原理和监控方案。 故事:K8s 集群丢包两天
阅读全文
posted @ 2026-03-23 15:53 IT运维监控
阅读(269)
评论(0)
推荐(3)
2026年2月24日
Nightingale(夜莺)官方 MCP Server:Cursor/AI 助手用自然语言操作监控与告警
摘要: Nightingale 的 MCP Server正式发布:https://github.com/n9e/n9e-mcp-server 。此 MCP Server 允许 AI 助手通过自然语言与夜莺 API 交互,实现告警管理、监控和可观测性任务。 兼容性 Nightingale:v8.0.0+ 主要
阅读全文
posted @ 2026-02-24 11:00 IT运维监控
阅读(435)
评论(0)
推荐(1)
下一页
公告