企业生产实践
把 AI SRE 从 Demo 搬到生产,需要处理规模、成本、安全、多租户和组织协同。本章按主题给出落地经验。
1. 大规模 Instrumentation
| 问题 | 实践 |
|---|---|
| 数据量爆炸 | tail-based sampling + adaptive sampling,只保留高价值 trace |
| 全量日志成本过高 | 结构化日志 + 分级 retention,错误/慢请求全保留 |
| 多语言栈 | 统一 OpenTelemetry SDK 与 Collector,避免各团队重复造轮子 |
| 性能开销 | 异步 batch export、metrics 聚合后再上报 |
2. 采样策略
| 策略 | 适用 |
|---|---|
| 100% sampling | 开发/测试、低流量核心接口 |
| Head-based probabilistic | 通用在线服务,实现简单 |
| Tail-based | AI 服务推荐,按错误/高延迟/高成本保留 |
| Adaptive | 根据流量自动调整采样率,保持成本可控 |
3. SLO 治理
- 分层 SLO:平台层(Gateway)、服务层(Agent Runtime)、能力层(RAG/LLM)。
- 质量 SLO:用 LLM-as-judge 或用户反馈打分,设定 hallucination rate、relevance。
- 成本 SLO:每会话/每用户 token 上限,防止成本失控。
- Error Budget 政策:预算耗尽时 freeze 非关键发布、启动 review。
4. 多租户与权限
- 每个 tenant 的 telemetry 通过 resource attribute 区分。
- 在 Collector 或后端按 tenant 做访问控制。
- 日志中避免泄露 prompt/PII;必要时做 token 化或哈希。
5. PII 与安全
- 关闭
gen_ai.content.*默认捕获。 - Collector 层做 PII 检测与脱敏(regex、NER)。
- 敏感操作(安全事件、越狱尝试)100% trace 并长期保留。
- TLS 1.2+、加密存储、RBAC。
6. 成本与 Retention
- 三档 retention:热(7–15 天)、温(90 天)、冷(1–7 年)。
- 高频 metrics 做降采样:15s → 1m → 5m → 1h。
- 对非生产环境降低采样率与 retention。
7. On-Call 与 Incident Response
- 告警分层:page(立即)、ticket(工作时间)、info(次日 review)。
- Runbook 与告警绑定,要求每一步可执行、可验证。
- War room 自动化:告警触发时自动拉群、创建 incident、附上 trace 链接。
- Postmortem 在 24–48 小时内完成,action items 进入 sprint。
8. AIOps 落地
- 从告警降噪开始:把相似告警聚类,减少 50% 以上噪音。
- 再引入动态基线:对 latency、token 用量、质量分数做异常检测。
- 最后做根因推荐:RAG over 历史 incident + 近期变更 + 依赖指标。
- 关键:AIOps 输出必须有置信度,低置信度时转人工。
9. 故障模式与应对
| 故障 | 应对 |
|---|---|
| 模型幻觉率上升 | 切换模型、启用 RAG、增加拒绝回答、回滚 prompt |
| 延迟 P99 飙升 | 限流、降级、缓存、扩容、模型切换 |
| 单用户成本异常 | 限流、告警、人工复核 |
| 工具调用失败 | 禁用 tool、fallback、告警 |
| 安全事件 | 人工接管、隔离、审计、升级 |
| 依赖 API 限流 | 多 provider 路由、指数退避、缓存 |
10. 持续改进
- 每周 SLO review:哪些 SLO 接近预算?为什么?
- 每月质量 audit:抽样评估模型输出质量。
- 每季度回顾 runbook 有效性、更新阈值与采样。
小结
生产级 AI SRE 的关键不是堆工具,而是建立统一的 telemetry 标准、清晰的 SLO 政策、自动化的事件响应与持续复盘机制。