11. 延伸阅读
官方文档(必读)
- Triton Inference Server User Guide
- 最权威、最全面的 Triton 文档。
- Triton Architecture
- 官方架构介绍,含 Dynamic Batching、Sequence Batching、Ensemble 的图示。
- Triton Model Configuration
config.pbtxt完整字段说明。
- Triton Model Repository
- 模型仓库结构、远程存储、版本管理。
- Triton Metrics
- Prometheus 指标列表与解释。
GitHub 仓库
- triton-inference-server/server
- Triton core 源码与 issue 讨论。
- triton-inference-server/backend
- Backend API 与公共库。
- triton-inference-server/core
- Triton server 核心 C++ 库。
- triton-inference-server/python_backend
- Python backend 源码。
- triton-inference-server/tensorrtllm_backend
- TensorRT-LLM backend。
- triton-inference-server/vllm_backend
- vLLM backend。
- triton-inference-server/model_analyzer
- 自动配置调优工具。
NVIDIA 资源
- NVIDIA Triton Inference Server 主页
- NGC Triton Container Catalog
- 官方 Docker 镜像与版本说明。
- NVIDIA Deep Learning Examples — Triton
- 官方推理示例。
Kubernetes / KServe 集成
相关主题
- vLLM 详解 — LLM 推理引擎,可作为 Triton vLLM backend。
- SGLang 详解 — LLM Program 执行引擎。
- TensorRT-LLM 详解 — NVIDIA 编译型 LLM 推理引擎,可作为 Triton TensorRT-LLM backend。
- LLM Gateway 详解 — 位于 Triton 前的统一接入层,处理认证、限流、路由与多租户。
推荐学习路径
- 先通读 Triton 官方 Architecture 与 Model Configuration 文档。
- 用 NGC Docker 跑通一个 classification 示例。
- 尝试把 vLLM 或 TensorRT-LLM 模型接入 Triton。
- 阅读
server仓库的src/core/dynamic_batch_scheduler.cc与ensemble_scheduler.cc。 - 用 Triton Model Analyzer 自动搜索最优配置。
本章小结
Triton 的生态系统非常丰富,官方文档、GitHub 源码、NGC 镜像、Model Analyzer 是最核心的学习资源。结合本主题的 Mini Demo 与 生产实践,可以从理论到工程全面掌握 Triton Inference Server。