核心概念

AI SRE 建立在传统可观测性与可靠性工程之上，同时扩展出适用于模型、Agent 与 RAG 的概念。

可观测性三大支柱

信号	用途	AI 系统关注点
Traces	描述请求在系统中的完整路径	Agent 步骤、模型调用、工具调用、RAG 检索的因果关系
Metrics	聚合数值，用于告警与趋势	TTFT、ITL、token 用量、成本、质量分数、错误率
Logs	记录离散事件与详细上下文	prompt、completion、retrieved chunks、异常堆栈

OpenTelemetry 把这三种信号统一为一套 instrumentation 标准。

OpenTelemetry 的 GenAI Special Interest Group 正在定义 LLM、VectorDB 与 AI Agent 的语义约定：

LLM span：gen_ai.system、gen_ai.request.model、gen_ai.usage.input_tokens、gen_ai.usage.output_tokens、gen_ai.response.finish_reason。
可选内容捕获：gen_ai.content.prompt 与 gen_ai.content.completion，默认关闭以防止 PII 泄露。
Agent span：基于 Google AI Agent 白皮书，定义 planner、tool use、memory access 等 span。
VectorDB span：记录检索操作、返回 chunk 数、延迟。

统一语义约定后，不同框架（LangChain、LlamaIndex、OpenAI SDK）产生的 telemetry 可以在同一后端对比。

Google SRE 推荐用 burn rate 把 SLO 转化为告警：

text

burn rate = 实际错误率 / SLO 错误预算

AIOps 把机器学习用于运维数据：

LLM 时代的 AIOps 新方向：用 LLM 理解非结构化日志、生成 RCA、辅助编写 runbook。

text

检测（Detect） → 分类（Triage） → 响应（Respond） → 缓解（Mitigate）
     → 恢复（Recover） → 复盘（Postmortem） → 改进（Improve）

每个阶段都需要明确的负责人、工具、runbook 与退出标准。

AI SRE 的核心概念可以概括为：统一 telemetry、定义多维 SLO、用 burn rate 告警、用 AIOps 增强响应、用闭环复盘持续改进。下一章把这些概念组织成可落地的平台架构。