最佳实践
本章整理 AI SRE 的检查清单与常见反模式。
Instrumentation 检查清单
- [ ] 所有 AI 服务接入 OpenTelemetry SDK。
- [ ] LLM 调用记录 model、token、temperature、finish_reason、cache hit。
- [ ] Agent 每一步生成 span,工具调用作为子 span。
- [ ] RAG 检索记录 query、返回 chunk 数、rerank 分数。
- [ ] trace_id 在 Gateway、Agent、RAG、工具之间传递。
- [ ] 默认关闭 prompt/completion 内容捕获,按需开启并脱敏。
Metrics 检查清单
- [ ] 监控 HTTP 可用性与端到端延迟。
- [ ] 单独监控 TTFT 与 ITL。
- [ ] 监控 token 用量与成本 per user / per feature / per model。
- [ ] 监控缓存命中率与降级次数。
- [ ] 监控 LLM-as-judge 质量分数、幻觉率、安全合规率。
SLO / Alerting 检查清单
- [ ] 每个关键服务都有明确的 SLI 与 SLO。
- [ ] 告警基于 burn rate,而非固定阈值。
- [ ] 使用多窗口减少误报。
- [ ] 告警信息包含 trace 链接、影响范围、最近变更。
- [ ] 告警与 runbook 绑定。
Incident Response 检查清单
- [ ] 有清晰的 severity 定义与升级路径。
- [ ] 已知故障模式有自动化 runbook。
- [ ] War room 自动创建,附带关键上下文。
- [ ] Postmortem blameless,action items 有 owner 与 deadline。
- [ ] 定期演练 runbook 与灾难恢复。
AIOps 检查清单
- [ ] 先解决告警噪音,再做根因分析。
- [ ] 动态基线需要足够历史数据。
- [ ] AIOps 推荐必须附带置信度与证据。
- [ ] 保留人工否决与接管机制。
常见反模式
| 反模式 | 后果 | 修正 |
|---|---|---|
| 只看 HTTP 200 | 幻觉与质量漂移被掩盖 | 增加质量/幻觉指标 |
| 平均延迟当 SLO | 长尾体验差 | 用 TTFT/ITL P95/P99 |
| 全量采集 | 成本爆炸 | tail-based sampling |
| 固定阈值告警 | 大量误报漏报 | burn rate + 动态基线 |
| 无 Error Budget 政策 | 团队对可靠性没有共识 | 定义预算耗尽后的行动 |
| 忽略 PII | 数据泄露风险 | 关闭内容捕获或脱敏 |
| 没有 runbook | 每次事故重新摸索 | 把经验固化为文档与自动化 |
一句话总结
AI SRE 的最佳实践:统一埋点、多维 SLO、burn-rate 告警、tail sampling、自动化响应、blameless 复盘。