摘要:
本文档完整记录了在中国区 EKS 集群上部署 AWS Workload Credentials Provider 的全过程。通过 Sidecar 模式,应用可以无感知地获取 AWS Secrets Manager 中的敏感配置,无需在代码中处理复杂的 AWS 认证逻辑。 在 Kubernetes 中 阅读全文
posted @ 2026-06-28 21:18
zhaojie10
阅读(3)
评论(0)
推荐(0)
摘要:
当大语言模型的训练从单张消费级显卡迈向企业级集群,我们进入了一个全新的技术维度。这不仅仅是硬件规模的扩张,更是架构思维的根本转变——如何在多台机器之间协调计算资源,如何在网络延迟与计算效率之间寻找平衡,如何在异构环境中保持代码的可移植性。本文记录的是一次完整的技术探索:在AWS中国区(cn-nort 阅读全文
posted @ 2026-06-28 14:39
zhaojie10
阅读(2)
评论(0)
推荐(0)
摘要:
Detector 是什么 想象你管理一个 AI Agent 服务。用户说这个 agent 今天表现很差,你看监控面板:成功率从 95% 掉到 78%。但监控只能告诉你分数掉了,不能告诉你为什么掉了。你想深入分析,打开 trace 日志——每天几千条 trace,每条几十个 span,每个 span 阅读全文
posted @ 2026-06-28 11:40
zhaojie10
阅读(2)
评论(0)
推荐(0)
摘要:
本文介绍一种基于LLM和AWS SSM的EKS故障诊断架构,完全摒弃传统的SSH登录模式,让AI成为运维工程师的"智能助手"。 想象一下这样的场景:凌晨两点,监控系统突然报警,XXXXXXX集群的一个节点无法加入。作为运维工程师,你的第一反应是什么?找IP地址,检查SSH密钥,确认安全组22端口是否 阅读全文
posted @ 2026-06-28 02:37
zhaojie10
阅读(4)
评论(0)
推荐(0)

浙公网安备 33010602011771号