摘要: 前言 前文分析了传统 on-call 的五个结构性问题。本文进入实操环节——如何把亚马逊云科技的 DevOps Agent 接入你的环境,实现 AI 自动排障。 架构概览 DevOps Agent 的数据流分三层: ┌───────────────────────────────────────── 阅读全文
posted @ 2026-05-12 20:16 亚马逊云开发者 阅读(5) 评论(0) 推荐(0)
摘要: 痛点 搞 ML 的团队都知道:训练一个模型要跑几十次实验,每次调参数、换数据集、试不同的预处理方式。问题是——这些实验记录怎么管? 之前的选择: 自己搭 MLflow Tracking Server(要维护 EC2 + RDS + S3) 用 Excel/Notion 手记(别笑,真有团队这么干) 阅读全文
posted @ 2026-05-12 11:35 亚马逊云开发者 阅读(5) 评论(0) 推荐(0)
摘要: 前言 最近研究了一下亚马逊云科技新推的 DevOps Agent,写篇深度解读。这东西不是又一个 ChatOps 机器人——它的定位是自主 AI SRE Agent,能跨多云和本地环境做全链路排障。 看完产品文档和几个客户案例后,我觉得值得认真聊一聊。 定位:自主运维的 AI 队友 DevOps A 阅读全文
posted @ 2026-05-12 08:38 亚马逊云开发者 阅读(21) 评论(0) 推荐(0)
摘要: 背景 上个月老板扔过来一个任务:"数据库连接池服务器 r6i.4xlarge 的账单太贵了,想办法降。" 查了一下 Cost Explorer,光 r6i 系列每月就烧掉不少。刚好赶上亚马逊云科技 5 月放出 Graviton4 的新内存优化实例族(r8g),决定做个迁移验证。 Graviton4 阅读全文
posted @ 2026-05-12 08:08 亚马逊云开发者 阅读(8) 评论(0) 推荐(0)