Triton Inference Server
Triton Inference Server 是 NVIDIA 开源的多框架、高性能推理服务软件。它通过统一的 model repository、config.pbtxt 与可插拔 backend,把 TensorRT-LLM、vLLM、ONNX Runtime、PyTorch、Python 等推理引擎整合成可观测、可扩展的生产级在线服务。
一句话理解
Triton 是模型与业务之间的“服务层”:它不关心模型用什么框架训练,只负责把请求路由到正确的 backend、拼成最优的 batch、以最低延迟返回结果。
本主题结构
学习目标
阅读完本主题后,你应该能够:
- 解释 Triton 与 vLLM / SGLang / TensorRT-LLM 在 LLMOps 链路中的不同定位
- 设计一个满足生产需求的 model repository 与
config.pbtxt - 比较 Dynamic Batching、Sequence Batching、Ensemble 三种调度策略的适用场景
- 说明 Backend API、Instance Group、模型版本管理、Metrics 的作用
- 在 Kubernetes / KServe 环境中规划 Triton 部署方案
- 判断何时应选 Triton,何时应选自研网关或 KServe
与 vLLM / SGLang / TensorRT-LLM 的关系
| 维度 | vLLM | SGLang | TensorRT-LLM | Triton Inference Server |
|---|---|---|---|---|
| 定位 | 通用 LLM 推理引擎 | LLM Program 执行引擎 | NVIDIA 编译型 LLM 推理引擎 | 多框架推理服务入口 |
| 核心能力 | PagedAttention + Continuous Batching | RadixAttention + 结构化生成 | Builder/Engine + In-flight Batching | Model Repository + Backend + Scheduler |
| 与 Triton 的关系 | 可作为 Triton 的 vLLM backend 被调用 | 可作为 Triton 的 Python backend 被调用 | 可作为 Triton 的 TensorRT-LLM backend 被调用 | 统一承载上述引擎并提供服务层能力 |
| 解决的主要问题 | 单模型高吞吐 | LLM Program 高效执行 | NVIDIA 硬件极致性能 | 多模型、多框架、可扩展、可观测服务 |
建议先阅读 vLLM 详解、SGLang 详解 与 TensorRT-LLM 详解,再理解 Triton 如何作为“服务层”把这些引擎组织起来。