Skip to content

背景:为什么 AI 系统需要专门的 SRE

传统 SRE 已经用 SLI/SLO、Error Budget、On-Call、Postmortem 让互联网服务稳定运行了二十年。但 AI 系统引入了新的不确定性和失效模式,使得传统方法必须扩展。

传统 SRE 与 AI SRE 的差异

维度传统服务AI 系统
失败信号HTTP 5xx、超时、CPU 高幻觉、偏见、输出质量下降、模型漂移
输入空间相对确定开放自然语言,几乎无限
延迟特征单次请求 P99TTFT + ITL + 端到端延迟
成本模型CPU/内存/存储Token 用量、GPU 时长、embedding 调用
变更源代码、配置模型版本、prompt、temperature、检索索引
可观测对象服务边界模型调用、工具调用、Agent 步骤、RAG 检索

AI 系统特有的故障模式

  1. 模型幻觉:服务返回 200 OK,但内容错误。
  2. 输出质量漂移:模型或 prompt 微小变化导致答案质量下降。
  3. 长尾延迟:某些输入触发超长生成,拖垮 P99。
  4. 成本爆炸:循环 Agent 或失控的 token 消费导致账单激增。
  5. 工具/检索失败:Agent 调用错误工具,RAG 召回空结果或低质量片段。
  6. 安全与合规风险:生成有害内容、泄露 PII、越狱攻击成功。
  7. 依赖不确定性:外部模型 API 行为变化、rate limit、版本下线。

为什么传统监控不够

  • 200 OK 不等于正确:HTTP 成功不能证明输出正确。
  • 平均延迟掩盖问题:TTFT 和 ITL 比端到端延迟更能反映用户体验。
  • 日志不够语义化:需要记录 prompt、completion、tool I/O、retrieval chunks。
  • 静态阈值失效:模型行为会随输入分布变化,需要动态基线。

AI SRE 的核心目标

  1. 可见性:看清每一次模型调用、Agent 步骤、RAG 检索的内部状态。
  2. 可度量:定义质量、成本、延迟、安全四位一体的 SLI/SLO。
  3. 可控制:通过路由、降级、熔断、缓存、采样控制成本与风险。
  4. 可恢复:建立 runbook、自动化修复与事后复盘机制。

小结

AI SRE 不是把 Prometheus 和 Grafana 套到 LLM 上,而是要把不确定性纳入工程治理。下一章将从 trace、metrics、logs、SLI/SLO、AIOps 等核心概念开始,搭建这套体系。

Released under CC-BY-SA-4.0 License.