LLM Gateway 总览

一句话理解：LLM Gateway 是客户端与多种推理后端之间的访问控制与抽象层，它把“用哪家模型、走哪条链路、限多少流、失败怎么办”这些横切问题从业务代码里抽离出来，集中治理。

学习目标

阅读完本主题后，你应该能够：

解释为什么企业在 vLLM / TensorRT-LLM / Triton / OpenAI / Azure 共存时需要 LLM Gateway。
说清楚 LLM Gateway 的 8 大核心能力：Provider 抽象、统一 API、路由、负载均衡、限流、重试降级、认证、可观测。
画出典型 LLM Gateway 架构，并说明控制面与数据面的职责边界。
理解一个请求从进入网关到返回的完整生命周期。
对比 LiteLLM Proxy、Envoy AI Gateway、Kong AI Gateway、NGINX AI Gateway、Cloudflare AI Gateway 的侧重点。
跑通并扩展本主题的 Mini Demo，理解其代码组织。
回答生产部署、多租户、成本追踪、安全相关的面试问题。

LLM Gateway 与 LLMOps 其他主题的关系

主题	解决的核心问题	与 LLM Gateway 的关系
vLLM	单个开源 LLM 如何跑得快	Gateway 可以把 vLLM OpenAI-compatible Server 作为一个上游 Provider
SGLang	LLM Program 执行与结构化生成	Gateway 可路由到 SGLang 后端并做请求/响应格式转换
TensorRT-LLM	NVIDIA 编译型推理引擎	Gateway 可以把 TensorRT-LLM Triton backend 作为高性能上游
Triton Inference Server	多框架统一推理服务	Gateway 通常位于 Triton 前面，处理认证、限流、多租户
LLM Gateway	多引擎/多云/多租户统一接入	承上启下，向下屏蔽 Provider 差异，向上暴露统一 API

本章结构

背景 — 多供应商与多引擎带来的协议碎片化。
核心思想 — Gateway 的 8 大横切能力。
架构设计 — 控制面与数据面，以及与 Service Mesh 的关系。
Runtime 工作流程 — 请求生命周期详解。
核心模块 — 配置、Provider、路由、限流、重试、认证、转换、指标。
源码分析 — 以 LiteLLM 为主，Envoy/Kong 为辅。
工程实践 — 纯 Python 可运行的 Mini Demo。
企业生产实践 — Sidecar、独立服务、Kubernetes 部署、多区域降级。
最佳实践 — 供应商选择、限流、超时、缓存、PII 过滤。
面试题 — 初级/中级/高级面试题。
延伸阅读 — 官方文档、论文、开源项目。

一句话总结

LLM Gateway 不是又一个推理引擎，而是推理服务的“前门”和“控制面”；它让业务方像调用一家供应商一样调用多家模型，同时让平台方统一治理路由、成本、质量与安全。