延伸阅读
官方文档与规范
OpenTelemetry
- https://opentelemetry.io/
- GenAI 语义约定与 Agent 可观测性最新标准。
OpenTelemetry GenAI Semantic Conventions
Prometheus
Grafana
Google SRE Book
Google SRE Workbook — Alerting on SLOs
学术论文
A Survey of AIOps in the Era of Large Language Models
Site Reliability Engineering: How Google Runs Production Systems
工程博客
Maxim AI — LLM Observability Best Practices for 2025
Zylos Research — AI Observability and Agent Monitoring 2026
OpenTelemetry Blog — AI Agent Observability
Grafana — Multi-window, multi-burn-rate alerts
incident.io — SRE Incident Post-Mortem Best Practices
相邻主题交叉引用
| 主题 | 链接 | 与本主题关系 |
|---|---|---|
| LLM Gateway | /04-llmops/llm-gateway/ | Gateway 是 AI 服务的流量入口与核心 SLI 来源。 |
| vLLM | /04-llmops/vllm/ | 推理引擎 metrics(TTFT、ITL、KV cache)是监控重点。 |
| Agent Runtime | /05-agent/agent-runtime/ | Agent 步骤需要 trace 与 SLO。 |
| RAG | /06-rag/ | RAG 流水线需要专门的可观测性与评估指标。 |
| Agent OS | /05-agent/agent-os/ | 进程隔离与资源治理是故障缓解的底座。 |
推荐学习路径
- 入门:读完 Google SRE Book 与 Workbook,用 Prometheus + Grafana 搭建一个服务的 SLO 仪表板。
- 进阶:接入 OpenTelemetry,为 FastAPI/Flask 服务生成 trace 与 metrics。
- 深入:学习 tail-based sampling、SLO-as-code(Sloth/OpenSLO)、AIOps 异常检测。
- 生产:为 LLM/Agent/RAG 服务定义多维 SLO,建立 on-call、runbook、postmortem 闭环。
一句话收尾
AI SRE 的终极目标不是“零故障”,而是让每一次故障都可观测、可度量、可恢复、可改进。