11. 延伸阅读
官方文档
论文
- PagedAttention: Efficient Memory Management for Large Language Model Serving with PagedAttention — SOSP 2023
官方博客
技术演讲
- vLLM at KubeCon / Ray Summit / NVIDIA GTC
- LMSYS 团队关于 PagedAttention 的分享
对比与生产实践
- SGLang: Efficient Execution of Structured Language Model Programs
- TensorRT-LLM User Guide
- HuggingFace Text Generation Inference
- Together AI、Fireworks AI 官方技术博客
社区资源
- vLLM GitHub Discussions
- vLLM Slack / Discord
- vLLM 中文社区讨论
相关章节
推荐学习路径
- 先读 PagedAttention 论文,理解设计动机
- 再读 vLLM 官方文档的 Architecture 和 Scheduling 部分
- 然后阅读源码中的
llm_engine.py和scheduler.py - 最后结合生产实践文章,思考如何在自己的场景中部署