11. 延伸阅读

本章列出 TensorRT-LLM 相关的官方文档、源码、论文、演讲与社区资源，供深入学习参考。

官方文档

TensorRT-LLM User Guide — 最权威的使用与架构文档
TensorRT-LLM Architecture Overview — 架构总览
Paged Attention, IFB, and Request Scheduling — IFB 与调度器
Quantization — 量化方案与硬件支持矩阵
Speculative Decoding — 投机解码
Triton TensorRT-LLM Backend — 生产部署 backend

源码仓库

NVIDIA/TensorRT-LLM — 主仓库
triton-inference-server/tensorrtllm_backend — Triton backend
NVIDIA/TensorRT — TensorRT 本体
NVIDIA/ModelOpt — 量化校准工具

关键源码路径

路径	内容
`tensorrt_llm/llmapi/llm.py`	LLM API 入口
`tensorrt_llm/_torch/pyexecutor/py_executor.py`	PyExecutor 主循环
`tensorrt_llm/_torch/pyexecutor/model_engine.py`	PyTorchModelEngine
`tensorrt_llm/_torch/pyexecutor/scheduler.py`	CapacityScheduler / MicroBatchScheduler
`tensorrt_llm/_torch/pyexecutor/kv_cache_manager.py`	KVCacheManager
`tensorrt_llm/_torch/models/`	各模型 PyTorch 实现
`cpp/tensorrt_llm/executor/`	C++ Executor 实现
`cpp/tensorrt_llm/kernels/`	CUDA kernels
`examples/`	官方示例
`triton_backend/`	Triton backend 源码与模板

Release Notes

TensorRT-LLM Release Notes — 版本更新、breaking changes、新模型支持

重点关注以下版本的变更：

1.0：PyTorch 后端稳定、LLM API 稳定
1.1：KV Cache Connector、FP4/MXFP4、投机解码增强
1.2：移除 TensorRT 后端、B300/GB300 支持

NVIDIA 演讲与博客

NVIDIA GTC 历年演讲：搜索 "TensorRT-LLM" 在 NVIDIA On-Demand
NVIDIA Developer Blog：TensorRT-LLM 相关文章
NVIDIA Technical Blog：关于 FP8 / FP4、Blackwell 推理优化的专题

论文	主题
Efficient Large Language Models: A Survey	LLM 推理优化综述
FlashAttention-2	注意力 kernel 优化
LLM in a Flash	低显存推理
Speculative Decoding 系列	投机解码

对比阅读

vLLM 详解 — 理解 PagedAttention 与 Continuous Batching
SGLang 详解 — 理解 LLM Program、RadixAttention 与结构化生成
Triton Inference Server 详解 — 多框架推理服务入口，可承载 TensorRT-LLM backend
LLM Gateway 详解 — 统一接入层，可把 TensorRT-LLM 作为上游 Provider

社区与 benchmark

Artificial Analysis — 第三方推理性能对比
Anyscale LLMPerf — LLM 服务 benchmark 工具
LMSYS Chatbot Arena — 模型能力评估（非性能）

本章小结

TensorRT-LLM 的资料高度集中在 NVIDIA 官方渠道。建议优先阅读 User Guide、Architecture Overview 与 Release Notes，再结合源码路径 llmapi → pyexecutor → model_engine/scheduler/kv_cache_manager 进行源码级学习。生产部署时务必跟踪 Release Notes 中的 breaking changes。

11. 延伸阅读 ​

官方文档 ​

源码仓库 ​

关键源码路径 ​

Release Notes ​

NVIDIA 演讲与博客 ​

相关论文 ​

对比阅读 ​

社区与 benchmark ​

本章小结 ​