11. 延伸阅读

官方文档（必读）

Triton Inference Server User Guide
- 最权威、最全面的 Triton 文档。
Triton Architecture
- 官方架构介绍，含 Dynamic Batching、Sequence Batching、Ensemble 的图示。
Triton Model Configuration
- config.pbtxt 完整字段说明。
Triton Model Repository
- 模型仓库结构、远程存储、版本管理。
Triton Metrics
- Prometheus 指标列表与解释。

GitHub 仓库

triton-inference-server/server
- Triton core 源码与 issue 讨论。
triton-inference-server/backend
- Backend API 与公共库。
triton-inference-server/core
- Triton server 核心 C++ 库。
triton-inference-server/python_backend
- Python backend 源码。
triton-inference-server/tensorrtllm_backend
- TensorRT-LLM backend。
triton-inference-server/vllm_backend
- vLLM backend。
triton-inference-server/model_analyzer
- 自动配置调优工具。

NVIDIA 资源

NVIDIA Triton Inference Server 主页
NGC Triton Container Catalog
- 官方 Docker 镜像与版本说明。
NVIDIA Deep Learning Examples — Triton
- 官方推理示例。

Kubernetes / KServe 集成

相关主题

vLLM 详解 — LLM 推理引擎，可作为 Triton vLLM backend。
SGLang 详解 — LLM Program 执行引擎。
TensorRT-LLM 详解 — NVIDIA 编译型 LLM 推理引擎，可作为 Triton TensorRT-LLM backend。
LLM Gateway 详解 — 位于 Triton 前的统一接入层，处理认证、限流、路由与多租户。

推荐学习路径

先通读 Triton 官方 Architecture 与 Model Configuration 文档。
用 NGC Docker 跑通一个 classification 示例。
尝试把 vLLM 或 TensorRT-LLM 模型接入 Triton。
阅读 server 仓库的 src/core/dynamic_batch_scheduler.cc 与 ensemble_scheduler.cc。
用 Triton Model Analyzer 自动搜索最优配置。

本章小结

Triton 的生态系统非常丰富，官方文档、GitHub 源码、NGC 镜像、Model Analyzer 是最核心的学习资源。结合本主题的 Mini Demo 与生产实践，可以从理论到工程全面掌握 Triton Inference Server。