Skip to content

Triton Inference Server

Triton Inference Server 是 NVIDIA 开源的多框架、高性能推理服务软件。它通过统一的 model repository、config.pbtxt 与可插拔 backend,把 TensorRT-LLM、vLLM、ONNX Runtime、PyTorch、Python 等推理引擎整合成可观测、可扩展的生产级在线服务。

一句话理解

Triton 是模型与业务之间的“服务层”:它不关心模型用什么框架训练,只负责把请求路由到正确的 backend、拼成最优的 batch、以最低延迟返回结果。

本主题结构

  1. 背景
  2. 核心思想
  3. 架构设计
  4. Runtime 工作流程
  5. 核心模块
  6. 源码分析
  7. 工程实践:Mini Demo
  8. 企业生产实践
  9. 最佳实践
  10. 面试题
  11. 延伸阅读

学习目标

阅读完本主题后,你应该能够:

  • 解释 Triton 与 vLLM / SGLang / TensorRT-LLM 在 LLMOps 链路中的不同定位
  • 设计一个满足生产需求的 model repository 与 config.pbtxt
  • 比较 Dynamic Batching、Sequence Batching、Ensemble 三种调度策略的适用场景
  • 说明 Backend API、Instance Group、模型版本管理、Metrics 的作用
  • 在 Kubernetes / KServe 环境中规划 Triton 部署方案
  • 判断何时应选 Triton,何时应选自研网关或 KServe

与 vLLM / SGLang / TensorRT-LLM 的关系

维度vLLMSGLangTensorRT-LLMTriton Inference Server
定位通用 LLM 推理引擎LLM Program 执行引擎NVIDIA 编译型 LLM 推理引擎多框架推理服务入口
核心能力PagedAttention + Continuous BatchingRadixAttention + 结构化生成Builder/Engine + In-flight BatchingModel Repository + Backend + Scheduler
与 Triton 的关系可作为 Triton 的 vLLM backend 被调用可作为 Triton 的 Python backend 被调用可作为 Triton 的 TensorRT-LLM backend 被调用统一承载上述引擎并提供服务层能力
解决的主要问题单模型高吞吐LLM Program 高效执行NVIDIA 硬件极致性能多模型、多框架、可扩展、可观测服务

建议先阅读 vLLM 详解SGLang 详解TensorRT-LLM 详解,再理解 Triton 如何作为“服务层”把这些引擎组织起来。

Released under CC-BY-SA-4.0 License.