Skip to content

最佳实践

本章整理 AI SRE 的检查清单与常见反模式。

Instrumentation 检查清单

  • [ ] 所有 AI 服务接入 OpenTelemetry SDK。
  • [ ] LLM 调用记录 model、token、temperature、finish_reason、cache hit。
  • [ ] Agent 每一步生成 span,工具调用作为子 span。
  • [ ] RAG 检索记录 query、返回 chunk 数、rerank 分数。
  • [ ] trace_id 在 Gateway、Agent、RAG、工具之间传递。
  • [ ] 默认关闭 prompt/completion 内容捕获,按需开启并脱敏。

Metrics 检查清单

  • [ ] 监控 HTTP 可用性与端到端延迟。
  • [ ] 单独监控 TTFT 与 ITL。
  • [ ] 监控 token 用量与成本 per user / per feature / per model。
  • [ ] 监控缓存命中率与降级次数。
  • [ ] 监控 LLM-as-judge 质量分数、幻觉率、安全合规率。

SLO / Alerting 检查清单

  • [ ] 每个关键服务都有明确的 SLI 与 SLO。
  • [ ] 告警基于 burn rate,而非固定阈值。
  • [ ] 使用多窗口减少误报。
  • [ ] 告警信息包含 trace 链接、影响范围、最近变更。
  • [ ] 告警与 runbook 绑定。

Incident Response 检查清单

  • [ ] 有清晰的 severity 定义与升级路径。
  • [ ] 已知故障模式有自动化 runbook。
  • [ ] War room 自动创建,附带关键上下文。
  • [ ] Postmortem blameless,action items 有 owner 与 deadline。
  • [ ] 定期演练 runbook 与灾难恢复。

AIOps 检查清单

  • [ ] 先解决告警噪音,再做根因分析。
  • [ ] 动态基线需要足够历史数据。
  • [ ] AIOps 推荐必须附带置信度与证据。
  • [ ] 保留人工否决与接管机制。

常见反模式

反模式后果修正
只看 HTTP 200幻觉与质量漂移被掩盖增加质量/幻觉指标
平均延迟当 SLO长尾体验差用 TTFT/ITL P95/P99
全量采集成本爆炸tail-based sampling
固定阈值告警大量误报漏报burn rate + 动态基线
无 Error Budget 政策团队对可靠性没有共识定义预算耗尽后的行动
忽略 PII数据泄露风险关闭内容捕获或脱敏
没有 runbook每次事故重新摸索把经验固化为文档与自动化

一句话总结

AI SRE 的最佳实践:统一埋点、多维 SLO、burn-rate 告警、tail sampling、自动化响应、blameless 复盘

Released under CC-BY-SA-4.0 License.