1. 背景

为什么需要 LLM Gateway？

在 vLLM、SGLang、TensorRT-LLM、Triton Inference Server 解决完“单个模型如何跑得快”之后，生产环境真正要面对的是：

企业里同时存在多家供应商、多个自研引擎、多种协议，业务方却只想用一个统一入口调用模型。

典型场景包括：

多云/多供应商：OpenAI GPT-4o、Azure OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、阿里云百炼、百度千帆等混用。
多自研引擎：vLLM 跑开源模型、TensorRT-LLM 跑 NVIDIA 优化模型、Triton 跑多框架模型、SGLang 跑结构化生成。
多业务方/多租户：不同团队、不同应用共享同一套模型资源，需要按租户隔离配额与成本。
横切能力重复建设：认证、限流、重试、降级、日志、成本追踪每家业务都自己写一遍。

如果没有网关，架构会变成这样：

每个业务都要处理：不同 SDK、不同鉴权、不同重试策略、不同错误码、不同成本核算口径。运维也痛苦：无法统一限流，无法快速切换供应商，无法统一监控。

引入 LLM Gateway 后，架构收敛为：

早期的 API 代理只解决两个问题：

但在 LLM 场景下，仅做转发远远不够，因为：

因此，现代 LLM Gateway 已经从“代理”演进到“AI 控制面”：

text

API Proxy -> API Gateway -> AI Gateway -> LLM Control Plane

它不仅要转发，还要做智能决策。

问题	没有 Gateway 的表现	有 Gateway 的解法
供应商切换	业务代码里硬编码 OpenAI SDK，切换要改代码	Gateway 层改 model alias 映射，业务无感知
限流	单点限流靠业务自己，容易击穿	按 api_key / model / tenant 统一 Token Bucket
失败降级	主供应商 429 时业务直接报错	Gateway 自动重试并切换到备用 provider
成本控制	月底看账单才发现某应用烧钱	实时记录 token 用量，按应用/用户/模型聚合
可观测	各 SDK 日志格式不同，难以统一	Gateway 统一输出请求数、延迟、状态码、token 数
安全合规	每个业务自己实现内容过滤	Gateway 统一做 PII/敏感词/越狱检测

方案	定位	优点	缺点
裸 SDK 直连	业务直接调用 OpenAI/Azure SDK	简单、延迟最低	无统一治理、重复建设
传统 API Gateway（Kong/NGINX）	通用七层网关	成熟、插件丰富	对 LLM 语义（model、token、retry、fallback）理解不足
Service Mesh（Istio/Linkerd）	服务间流量治理	透明、可观测强	通常作用于微服务间，对 LLM 语义路由需额外扩展
Triton Inference Server	多框架推理服务入口	强 GPU 调度、backend 抽象	主要面向自托管模型，多云供应商接入需额外封装
KServe	Kubernetes 上的模型服务框架	自动扩缩、蓝绿发布	以 Kubernetes 为中心，对供应商 API 的抽象较弱
LiteLLM Proxy	专门面向 LLM 的统一网关	100+ provider 抽象、OpenAI-compatible、成本低	开源版高可用/多集群需要自行设计
Envoy AI Gateway	基于 Envoy 的 AI 网关	与 Kubernetes Gateway API 集成、可扩展	部署相对复杂，需要 Envoy 经验
Cloudflare AI Gateway	边缘 AI 网关	零部署、缓存、分析	供应商锁定、自定义能力有限

一句话：如果你需要把“多家供应商 + 多个自研引擎 + 多个业务方”统一管起来，LLM Gateway 是最合适的抽象层。

LLM Gateway 的产生不是技术炫技，而是生产环境多供应商、多引擎、多租户治理的必然结果。它把认证、路由、限流、重试、降级、成本、可观测这些横切问题从业务代码中抽离，形成一个可演进、可审计、可治理的 AI 控制面。

参考来源