面试题

初级

1. 什么是 SLI、SLO、Error Budget？它们之间关系是什么？

要点：SLI 是指标，SLO 是目标，Error Budget = 1 - SLO，是允许的“坏”事件总量。

2. AI 系统与传统服务在监控上有什么不同？

要点：AI 可能返回 200 但内容错误；需要监控质量、幻觉、成本、模型漂移，而不仅是可用性。

3. 什么是 TTFT 和 ITL？为什么对 LLM 很重要？

要点：TTFT = Time to First Token，反映用户感知的首字延迟；ITL = Inter-Token Latency，反映生成流畅度。

4. OpenTelemetry 的三大信号是什么？

要点：traces、metrics、logs。

5. 什么是 burn rate？

要点：实际错误率除以 SLO 错误预算，用于把 SLO breach 转化为告警。

中级

6. 如何为 LLM 服务设计 SLO？

要点：覆盖可用性、TTFT/ITL、质量分数、幻觉率、每次请求成本；按功能/模型分层。

7. Head-based sampling 和 Tail-based sampling 有什么区别？

要点：Head 在请求入口决定；Tail 等 trace 完成后按错误/延迟等条件决定是否保留。Tail 更适合保留异常 trace。

8. 如何检测模型幻觉或输出质量下降？

要点：LLM-as-judge、用户反馈、RAG 引用校验、NLI 模型、对比历史质量分布。

9. 多窗口 burn rate 告警怎么减少误报？

要点：短窗口发现突发问题，长窗口确认持续性；两者同时满足才告警。

10. AI SRE 中如何处理 PII？

要点：关闭 prompt/completion 内容捕获；Collector 层脱敏；敏感事件单独保留并加密。

高级

11. 设计一个可扩展的 AI 可观测性平台。

要点：OpenTelemetry 统一埋点 → Collector 采样/脱敏 → Prometheus/Thanos + Tempo/ClickHouse + Loki → Grafana SLO + AIOps → PagerDuty/Incident Manager。

12. 如何在多模型、多 provider 环境中做 SLO 与成本治理？

要点：统一 Gateway 收集按 model/provider 的 metrics；设定 tiered SLO；路由简单请求到便宜模型；按 user/feature 限额。

13. AIOps 在 AI SRE 中能做什么？边界在哪？

要点：告警降噪、动态基线、事件关联、根因推荐、生成 postmortem；边界在于低置信度时必须人工确认，不能自动执行高风险修复。

14. 如何设计一次 AI 生产事故的 postmortem？

要点：Timeline、影响范围、根因、缓解措施、action items；blameless；把改进项加入 backlog。

15. 如果模型版本更新后质量 SLO 下降，你会怎么做？

要点：快速回滚或灰度切换；分析 bad cases；更新评估集；复盘模型评估流程；必要时加入 shadow test。

小结

面试题覆盖了概念、实现与生产。准备时建议结合自己项目：你监控了哪些 AI 指标？SLO 是什么？遇到过哪些事故？如何改进？

面试题 ​

初级 ​

1. 什么是 SLI、SLO、Error Budget？它们之间关系是什么？ ​

2. AI 系统与传统服务在监控上有什么不同？ ​

3. 什么是 TTFT 和 ITL？为什么对 LLM 很重要？ ​

4. OpenTelemetry 的三大信号是什么？ ​

5. 什么是 burn rate？ ​

中级 ​

6. 如何为 LLM 服务设计 SLO？ ​

7. Head-based sampling 和 Tail-based sampling 有什么区别？ ​

8. 如何检测模型幻觉或输出质量下降？ ​

9. 多窗口 burn rate 告警怎么减少误报？ ​

10. AI SRE 中如何处理 PII？ ​

高级 ​

11. 设计一个可扩展的 AI 可观测性平台。 ​

12. 如何在多模型、多 provider 环境中做 SLO 与成本治理？ ​

13. AIOps 在 AI SRE 中能做什么？边界在哪？ ​

14. 如何设计一次 AI 生产事故的 postmortem？ ​

15. 如果模型版本更新后质量 SLO 下降，你会怎么做？ ​

小结 ​

面试题

初级