Skip to content

11. 延伸阅读

官方文档(必读)

GitHub 仓库

NVIDIA 资源

Kubernetes / KServe 集成

相关主题

  • vLLM 详解 — LLM 推理引擎,可作为 Triton vLLM backend。
  • SGLang 详解 — LLM Program 执行引擎。
  • TensorRT-LLM 详解 — NVIDIA 编译型 LLM 推理引擎,可作为 Triton TensorRT-LLM backend。
  • LLM Gateway 详解 — 位于 Triton 前的统一接入层,处理认证、限流、路由与多租户。

推荐学习路径

  1. 先通读 Triton 官方 Architecture 与 Model Configuration 文档。
  2. 用 NGC Docker 跑通一个 classification 示例。
  3. 尝试把 vLLM 或 TensorRT-LLM 模型接入 Triton。
  4. 阅读 server 仓库的 src/core/dynamic_batch_scheduler.ccensemble_scheduler.cc
  5. 用 Triton Model Analyzer 自动搜索最优配置。

本章小结

Triton 的生态系统非常丰富,官方文档、GitHub 源码、NGC 镜像、Model Analyzer 是最核心的学习资源。结合本主题的 Mini Demo生产实践,可以从理论到工程全面掌握 Triton Inference Server。

Released under CC-BY-SA-4.0 License.