源码与生态分析
AI SRE 生态涵盖开源可观测性栈、商业 APM、LLM 专用可观测性平台与 AIOps 工具。本章对比它们的设计取舍。
OpenTelemetry
- 定位:云原生可观测性的统一标准与 SDK/Collector。
- 核心能力:trace、metrics、logs 三信号;多语言 SDK;Collector 处理/路由。
- GenAI SIG:正在制定 LLM、VectorDB、Agent 的语义约定。
- 优点:厂商中立、生态最广、与 Prometheus/Grafana/Jaeger 无缝集成。
- 缺点:概念多、配置复杂;GenAI 语义约定仍在演进。
Prometheus + Grafana
- Prometheus:时序数据库与告警引擎,Pull 模式,PromQL 强大。
- Alertmanager:告警路由、抑制、静默、分组。
- Grafana:可视化与告警配置中心。
- 适用:metrics 监控、SLO burn rate、latency/token 成本仪表板。
- 扩展:Thanos、Mimir、VictoriaMetrics 解决长期存储与高可用。
Jaeger / Tempo / ClickHouse
| 产品 | 定位 | 特点 |
|---|---|---|
| Jaeger | 开源分布式追踪 | 支持 OTLP、Adaptive Sampling、Service Dependency Graph |
| Tempo | Grafana Labs 的 trace 后端 | 低成本、与 Loki/Prometheus 标签对齐 |
| ClickHouse | 列式 OLAP | 高性能 trace/log 存储,适合大规模 |
Loki / Elasticsearch
- Loki:Grafana Labs 的日志聚合,只索引标签,成本低。
- Elasticsearch/OpenSearch:全文索引,查询灵活,成本高。
- 选择:结构化日志多、预算有限选 Loki;需要复杂全文检索选 ES。
商业 APM / Observability
| 产品 | 特点 |
|---|---|
| Datadog | 一体化 APM、基础设施监控、日志、SLO、AI 助手 Bits AI |
| New Relic | 全栈可观测、OpenTelemetry 原生支持 |
| Dynatrace | Davis AI 引擎、自动根因分析 |
| Splunk | 日志起家,AIOps 与事件关联强 |
LLM 专用可观测性平台
| 产品 | 定位 |
|---|---|
| LangSmith | LangChain 生态,trace、eval、prompt 管理 |
| Langfuse | 开源 LLM 可观测性,OpenTelemetry 支持 |
| Arize Phoenix | LLM 可观测与评估,偏向模型质量 |
| TruLens | RAG/LLM 评估与反馈 |
| DeepEval | LLM 单元测试与评估框架 |
| OpenLLMetry | 基于 OpenTelemetry 的 LLM 可观测 SDK |
| Braintrust | 评估与实验平台 |
AIOps / Incident Management
| 产品 | 定位 |
|---|---|
| PagerDuty | On-call、告警升级、incident response |
| Opsgenie | Atlassian 的事件响应 |
| incident.io | 现代 incident 管理,runbook、postmortem |
| FireHydrant | SRE 平台,自动化 runbook、状态页 |
| BigPanda / Moogsoft | 传统 AIOps 事件关联 |
选型对比
| 维度 | 开源栈 (OTel + Prometheus + Grafana) | 商业 APM | LLM 专用平台 |
|---|---|---|---|
| 成本 | 低(自运维) | 高(按量付费) | 中高 |
| 可控性 | 高 | 中 | 中 |
| AI 语义支持 | 需自建 | 部分支持 | 强 |
| 易用性 | 中 | 高 | 高 |
| 适合场景 | 有 SRE 团队、强定制 | 快速上线、一体化 | LLM 应用深度评估 |
小结
大多数团队的最佳路径是:用 OpenTelemetry 统一埋点,Prometheus/Grafana 做 metrics 与 SLO,Jaeger/Tempo 做 trace,再用 Langfuse/Arize 补充 LLM 质量评估。商业 APM 适合缺少自运维能力或需要快速落地的场景。