11. 延伸阅读

官方文档

论文

PagedAttention: Efficient Memory Management for Large Language Model Serving with PagedAttention — SOSP 2023

官方博客

技术演讲

vLLM at KubeCon / Ray Summit / NVIDIA GTC
LMSYS 团队关于 PagedAttention 的分享

对比与生产实践

SGLang: Efficient Execution of Structured Language Model Programs
TensorRT-LLM User Guide
HuggingFace Text Generation Inference
Together AI、Fireworks AI 官方技术博客

社区资源

vLLM GitHub Discussions
vLLM Slack / Discord
vLLM 中文社区讨论

相关章节

推荐学习路径

先读 PagedAttention 论文，理解设计动机
再读 vLLM 官方文档的 Architecture 和 Scheduling 部分
然后阅读源码中的 llm_engine.py 和 scheduler.py
最后结合生产实践文章，思考如何在自己的场景中部署