背景：为什么 AI 系统需要专门的 SRE

传统 SRE 已经用 SLI/SLO、Error Budget、On-Call、Postmortem 让互联网服务稳定运行了二十年。但 AI 系统引入了新的不确定性和失效模式，使得传统方法必须扩展。

传统 SRE 与 AI SRE 的差异

维度	传统服务	AI 系统
失败信号	HTTP 5xx、超时、CPU 高	幻觉、偏见、输出质量下降、模型漂移
输入空间	相对确定	开放自然语言，几乎无限
延迟特征	单次请求 P99	TTFT + ITL + 端到端延迟
成本模型	CPU/内存/存储	Token 用量、GPU 时长、embedding 调用
变更源	代码、配置	模型版本、prompt、temperature、检索索引
可观测对象	服务边界	模型调用、工具调用、Agent 步骤、RAG 检索

AI 系统特有的故障模式

模型幻觉：服务返回 200 OK，但内容错误。
输出质量漂移：模型或 prompt 微小变化导致答案质量下降。
长尾延迟：某些输入触发超长生成，拖垮 P99。
成本爆炸：循环 Agent 或失控的 token 消费导致账单激增。
工具/检索失败：Agent 调用错误工具，RAG 召回空结果或低质量片段。
安全与合规风险：生成有害内容、泄露 PII、越狱攻击成功。
依赖不确定性：外部模型 API 行为变化、rate limit、版本下线。

为什么传统监控不够

200 OK 不等于正确：HTTP 成功不能证明输出正确。
平均延迟掩盖问题：TTFT 和 ITL 比端到端延迟更能反映用户体验。
日志不够语义化：需要记录 prompt、completion、tool I/O、retrieval chunks。
静态阈值失效：模型行为会随输入分布变化，需要动态基线。

AI SRE 的核心目标

可见性：看清每一次模型调用、Agent 步骤、RAG 检索的内部状态。
可度量：定义质量、成本、延迟、安全四位一体的 SLI/SLO。
可控制：通过路由、降级、熔断、缓存、采样控制成本与风险。
可恢复：建立 runbook、自动化修复与事后复盘机制。

小结

AI SRE 不是把 Prometheus 和 Grafana 套到 LLM 上，而是要把不确定性纳入工程治理。下一章将从 trace、metrics、logs、SLI/SLO、AIOps 等核心概念开始，搭建这套体系。