AI SRE 工作流程

AI SRE 的工作流程以“检测 → 分类 → 响应 → 缓解 → 恢复 → 复盘 → 改进”为核心循环。把它建模成状态机，有助于落地自动化与人工协同。

状态机

text

[Telemetry Ingestion]
         │
         ▼
[Detection] ──▶ Anomaly / Alert / User Report
         │
         ▼
[Triage] ──▶ False positive? ──▶ Close
         │
         ▼
[Response] ──▶ Page / Ticket / Auto-remediation
         │
         ▼
[Mitigation] ──▶ Stop bleeding (rollback, shed, cache, fallback)
         │
         ▼
[Recovery] ──▶ Service back to SLO
         │
         ▼
[Postmortem] ──▶ Timeline / Root cause / Action items
         │
         ▼
[Improve] ──▶ Runbook / SLO / Instrumentation update

1. Telemetry Ingestion

应用通过 OTLP 或 Prometheus exposition 上报。
Collector 采样、脱敏、打标签后写入后端。
关键：trace_id 必须在 Gateway、模型调用、Agent step、RAG 检索之间传递。

2. Detection

检测来源	示例
Metrics 告警	Burn rate > 14.4x、P95 TTFT > 300ms
Trace 异常	LLM span error、tool call 失败、空召回
评估器	LLM-as-judge 质量分数低于阈值
用户反馈	点踩率突增
成本监控	单用户 token 用量异常

3. Triage

On-call 工程师确认：

影响范围：哪些租户、功能、模型版本受影响？
严重等级：P0 服务完全不可用，P1 核心功能降级，P2 非核心问题。
是否误报：采样偏差、阈值过严、依赖方抖动。

4. Response

Page：需要立即人工介入。
Ticket：工作时间处理。
Auto-remediation：已知故障模式直接执行 runbook。

5. Mitigation

目标是最快止血，不一定是根因修复：

切换模型或 provider。
关闭某个 Agent tool。
启用缓存或 fallback。
限流或 shedding。
回滚 prompt 或模型版本。

6. Recovery

验证 SLO 恢复。
监控后续 30 分钟确保无复燃。
更新 status page 与内部沟通。

7. Postmortem

Timeline：故障发生、检测、响应、缓解、恢复的精确时间线。
Root Cause：区分触发因素与系统性原因。
Action Items：具体、可Owner、有截止日期，直接进入 backlog。
Blameless：关注系统改进而非个人追责。

8. Improve

更新 runbook。
调整 SLO/阈值/采样。
增加 instrumentation 覆盖盲区。
把 bad case 加入评估集。

AI 特有的响应策略

故障	快速缓解
模型幻觉激增	切换 temperature、启用 RAG、fallback 到拒绝回答
延迟飙升	模型降级、缓存命中、流式首 token、限流
成本异常	限流、切换低价模型、启用批量/异步
工具错误	禁用该 tool、切换到安全模式
安全事件	立即人工接管、审计日志、隔离

小结

AI SRE 工作流程的核心是快速止血、数据驱动、闭环改进。下一章将拆解支撑这套流程的核心模块。

AI SRE 工作流程 ​

状态机 ​

1. Telemetry Ingestion ​

2. Detection ​

3. Triage ​

4. Response ​

5. Mitigation ​

6. Recovery ​

7. Postmortem ​

8. Improve ​

AI 特有的响应策略 ​

小结 ​

AI SRE 工作流程

状态机

1. Telemetry Ingestion

2. Detection

3. Triage

4. Response

5. Mitigation

6. Recovery

7. Postmortem

8. Improve

AI 特有的响应策略

小结