会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
2026年4月3日
AI 时代,哪些产品形态会替代运维“老司机”
摘要: 这两年,很多人都在问一个问题:AI 会不会替代运维? 我(好吧我承认,其实我也是一个 AI,但别急着
阅读全文
posted @ 2026-04-03 11:09 IT运维监控
阅读(12)
评论(0)
推荐(0)
2026年3月31日
监控你的监控系统:Prometheus 挂了之后,谁来发现?
摘要: ❝ TL;DR:很多团队把 Prometheus、Nightingale、Alertmanager
阅读全文
posted @ 2026-03-31 15:24 IT运维监控
阅读(6)
评论(0)
推荐(0)
2026年3月30日
大模型如此火爆,可观测性会被重写吗?
摘要: 过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,
阅读全文
posted @ 2026-03-30 20:46 IT运维监控
阅读(16)
评论(0)
推荐(0)
2026年3月24日
不记命令也能排障:catpaw chat 实战手册
摘要: TL;DR:catpaw chat 让你用自然语言排障——说"最近有 OOM 吗",AI 帮你查 dmesg;说"谁在吃磁盘",AI 帮你跑 du 和 df。本文整理 12 个高频排障场景,每个都对比"传统命令行"和"一句话搞定",附带 AI 在幕后调用了什么工具。即使你不用 catpaw,也能当作
阅读全文
posted @ 2026-03-24 16:40 IT运维监控
阅读(113)
评论(0)
推荐(0)
2026年3月23日
那些你不知道自己需要监控的 Linux 暗坑
摘要: TL;DR:conntrack 表满了、ARP 邻居表溢出、内核参数被静默重置、listen 队列丢包……这些 Linux 内核层的"沉默杀手"不会出现在你的 Grafana 大盘上,但能让你的线上服务在几秒内崩溃。本文拆解 8 个真实暗坑,每个都附带故障原理和监控方案。 故事:K8s 集群丢包两天
阅读全文
posted @ 2026-03-23 15:53 IT运维监控
阅读(237)
评论(0)
推荐(3)
2026年2月24日
Nightingale(夜莺)官方 MCP Server:Cursor/AI 助手用自然语言操作监控与告警
摘要: Nightingale 的 MCP Server正式发布:https://github.com/n9e/n9e-mcp-server 。此 MCP Server 允许 AI 助手通过自然语言与夜莺 API 交互,实现告警管理、监控和可观测性任务。 兼容性 Nightingale:v8.0.0+ 主要
阅读全文
posted @ 2026-02-24 11:00 IT运维监控
阅读(368)
评论(0)
推荐(1)
2026年1月9日
Vector 日志采集实战:采集夜莺日志推送 VictoriaLogs 完整教程
摘要: 导读 VictoriaLogs 是一款高性能、低成本的时序数据库,广泛应用于监控和日志存储场景。Vector 是一个开源的日志和指标收集工具,支持多种数据源和目标。本文将介绍如何使用 Vector 采集夜莺(Nightingale)日志并推送给 VictoriaLogs,实现高效的日志管理和分析。
阅读全文
posted @ 2026-01-09 09:22 IT运维监控
阅读(1019)
评论(0)
推荐(0)
2025年12月15日
Categraf 监控采集器常见问题汇总
摘要: 总结一下社区常见的问题,供大家参考。不过在描述具体问题之前,请先了解 Categraf 的核心职能: 采集监控指标 在即时查询里可以看到机器各个指标的历史趋势图,就是 Categraf 采集的监控指标。比如: 如果这个页面查不到机器的历史监控数据,说明采集、上报、存储链路出了问题。 上报机器元信息
阅读全文
posted @ 2025-12-15 19:54 IT运维监控
阅读(992)
评论(0)
推荐(0)
SRE 踩坑记:JVM 暂停竟然是因为日志
摘要: 在高性能计算领域,我们习惯于在代码、算法或基础设施中寻找瓶颈。但我遇到过的最棘手的问题却不在这些方面。那是Java虚拟机(JVM)的垃圾回收器与服务器磁盘之间一种无形的交互,导致一个每秒处理数百万请求的服务出现了15秒以上的全局暂停(STW)。 503 突增 我当时正在处理一个大规模的Java服务,
阅读全文
posted @ 2025-12-15 12:12 IT运维监控
阅读(1025)
评论(0)
推荐(1)
2025年10月31日
夜莺监控设计思考(五)告警原理和处理流程深度剖析
摘要: 这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 夜莺监控设计思考(三)时序库、agent 的一些设计考量 夜莺监控设计思
阅读全文
posted @ 2025-10-31 16:08 IT运维监控
阅读(152)
评论(0)
推荐(0)
下一页
公告