Skip to content

11. 延伸阅读

本章列出 TensorRT-LLM 相关的官方文档、源码、论文、演讲与社区资源,供深入学习参考。

官方文档

源码仓库

关键源码路径

路径内容
tensorrt_llm/llmapi/llm.pyLLM API 入口
tensorrt_llm/_torch/pyexecutor/py_executor.pyPyExecutor 主循环
tensorrt_llm/_torch/pyexecutor/model_engine.pyPyTorchModelEngine
tensorrt_llm/_torch/pyexecutor/scheduler.pyCapacityScheduler / MicroBatchScheduler
tensorrt_llm/_torch/pyexecutor/kv_cache_manager.pyKVCacheManager
tensorrt_llm/_torch/models/各模型 PyTorch 实现
cpp/tensorrt_llm/executor/C++ Executor 实现
cpp/tensorrt_llm/kernels/CUDA kernels
examples/官方示例
triton_backend/Triton backend 源码与模板

Release Notes

重点关注以下版本的变更:

  • 1.0:PyTorch 后端稳定、LLM API 稳定
  • 1.1:KV Cache Connector、FP4/MXFP4、投机解码增强
  • 1.2:移除 TensorRT 后端、B300/GB300 支持

NVIDIA 演讲与博客

相关论文

论文主题
Efficient Large Language Models: A SurveyLLM 推理优化综述
FlashAttention-2注意力 kernel 优化
LLM in a Flash低显存推理
Speculative Decoding 系列投机解码

对比阅读

社区与 benchmark

本章小结

TensorRT-LLM 的资料高度集中在 NVIDIA 官方渠道。建议优先阅读 User Guide、Architecture Overview 与 Release Notes,再结合源码路径 llmapi → pyexecutor → model_engine/scheduler/kv_cache_manager 进行源码级学习。生产部署时务必跟踪 Release Notes 中的 breaking changes。

Released under CC-BY-SA-4.0 License.