Skip to content

企业生产实践

把 AI SRE 从 Demo 搬到生产,需要处理规模、成本、安全、多租户和组织协同。本章按主题给出落地经验。

1. 大规模 Instrumentation

问题实践
数据量爆炸tail-based sampling + adaptive sampling,只保留高价值 trace
全量日志成本过高结构化日志 + 分级 retention,错误/慢请求全保留
多语言栈统一 OpenTelemetry SDK 与 Collector,避免各团队重复造轮子
性能开销异步 batch export、metrics 聚合后再上报

2. 采样策略

策略适用
100% sampling开发/测试、低流量核心接口
Head-based probabilistic通用在线服务,实现简单
Tail-basedAI 服务推荐,按错误/高延迟/高成本保留
Adaptive根据流量自动调整采样率,保持成本可控

3. SLO 治理

  • 分层 SLO:平台层(Gateway)、服务层(Agent Runtime)、能力层(RAG/LLM)。
  • 质量 SLO:用 LLM-as-judge 或用户反馈打分,设定 hallucination rate、relevance。
  • 成本 SLO:每会话/每用户 token 上限,防止成本失控。
  • Error Budget 政策:预算耗尽时 freeze 非关键发布、启动 review。

4. 多租户与权限

  • 每个 tenant 的 telemetry 通过 resource attribute 区分。
  • 在 Collector 或后端按 tenant 做访问控制。
  • 日志中避免泄露 prompt/PII;必要时做 token 化或哈希。

5. PII 与安全

  • 关闭 gen_ai.content.* 默认捕获。
  • Collector 层做 PII 检测与脱敏(regex、NER)。
  • 敏感操作(安全事件、越狱尝试)100% trace 并长期保留。
  • TLS 1.2+、加密存储、RBAC。

6. 成本与 Retention

  • 三档 retention:热(7–15 天)、温(90 天)、冷(1–7 年)。
  • 高频 metrics 做降采样:15s → 1m → 5m → 1h。
  • 对非生产环境降低采样率与 retention。

7. On-Call 与 Incident Response

  • 告警分层:page(立即)、ticket(工作时间)、info(次日 review)。
  • Runbook 与告警绑定,要求每一步可执行、可验证。
  • War room 自动化:告警触发时自动拉群、创建 incident、附上 trace 链接。
  • Postmortem 在 24–48 小时内完成,action items 进入 sprint。

8. AIOps 落地

  • 告警降噪开始:把相似告警聚类,减少 50% 以上噪音。
  • 再引入动态基线:对 latency、token 用量、质量分数做异常检测。
  • 最后做根因推荐:RAG over 历史 incident + 近期变更 + 依赖指标。
  • 关键:AIOps 输出必须有置信度,低置信度时转人工。

9. 故障模式与应对

故障应对
模型幻觉率上升切换模型、启用 RAG、增加拒绝回答、回滚 prompt
延迟 P99 飙升限流、降级、缓存、扩容、模型切换
单用户成本异常限流、告警、人工复核
工具调用失败禁用 tool、fallback、告警
安全事件人工接管、隔离、审计、升级
依赖 API 限流多 provider 路由、指数退避、缓存

10. 持续改进

  • 每周 SLO review:哪些 SLO 接近预算?为什么?
  • 每月质量 audit:抽样评估模型输出质量。
  • 每季度回顾 runbook 有效性、更新阈值与采样。

小结

生产级 AI SRE 的关键不是堆工具,而是建立统一的 telemetry 标准、清晰的 SLO 政策、自动化的事件响应与持续复盘机制

Released under CC-BY-SA-4.0 License.