Skip to content

AI SRE 工作流程

AI SRE 的工作流程以“检测 → 分类 → 响应 → 缓解 → 恢复 → 复盘 → 改进”为核心循环。把它建模成状态机,有助于落地自动化与人工协同。

状态机

text
[Telemetry Ingestion]


[Detection] ──▶ Anomaly / Alert / User Report


[Triage] ──▶ False positive? ──▶ Close


[Response] ──▶ Page / Ticket / Auto-remediation


[Mitigation] ──▶ Stop bleeding (rollback, shed, cache, fallback)


[Recovery] ──▶ Service back to SLO


[Postmortem] ──▶ Timeline / Root cause / Action items


[Improve] ──▶ Runbook / SLO / Instrumentation update

1. Telemetry Ingestion

  • 应用通过 OTLP 或 Prometheus exposition 上报。
  • Collector 采样、脱敏、打标签后写入后端。
  • 关键:trace_id 必须在 Gateway、模型调用、Agent step、RAG 检索之间传递。

2. Detection

检测来源示例
Metrics 告警Burn rate > 14.4x、P95 TTFT > 300ms
Trace 异常LLM span error、tool call 失败、空召回
评估器LLM-as-judge 质量分数低于阈值
用户反馈点踩率突增
成本监控单用户 token 用量异常

3. Triage

On-call 工程师确认:

  • 影响范围:哪些租户、功能、模型版本受影响?
  • 严重等级:P0 服务完全不可用,P1 核心功能降级,P2 非核心问题。
  • 是否误报:采样偏差、阈值过严、依赖方抖动。

4. Response

  • Page:需要立即人工介入。
  • Ticket:工作时间处理。
  • Auto-remediation:已知故障模式直接执行 runbook。

5. Mitigation

目标是最快止血,不一定是根因修复:

  • 切换模型或 provider。
  • 关闭某个 Agent tool。
  • 启用缓存或 fallback。
  • 限流或 shedding。
  • 回滚 prompt 或模型版本。

6. Recovery

  • 验证 SLO 恢复。
  • 监控后续 30 分钟确保无复燃。
  • 更新 status page 与内部沟通。

7. Postmortem

  • Timeline:故障发生、检测、响应、缓解、恢复的精确时间线。
  • Root Cause:区分触发因素与系统性原因。
  • Action Items:具体、可Owner、有截止日期,直接进入 backlog。
  • Blameless:关注系统改进而非个人追责。

8. Improve

  • 更新 runbook。
  • 调整 SLO/阈值/采样。
  • 增加 instrumentation 覆盖盲区。
  • 把 bad case 加入评估集。

AI 特有的响应策略

故障快速缓解
模型幻觉激增切换 temperature、启用 RAG、fallback 到拒绝回答
延迟飙升模型降级、缓存命中、流式首 token、限流
成本异常限流、切换低价模型、启用批量/异步
工具错误禁用该 tool、切换到安全模式
安全事件立即人工接管、审计日志、隔离

小结

AI SRE 工作流程的核心是快速止血、数据驱动、闭环改进。下一章将拆解支撑这套流程的核心模块。

Released under CC-BY-SA-4.0 License.