11. 延伸阅读
官方文档
论文
结构化生成相关
对比与生产实践
- vLLM 官方文档
- Mooncake: A KVCache-centric Disaggregated Architecture
- LMSYS / SGLang 团队技术博客与演讲
社区资源
- SGLang GitHub Discussions
- SGLang Slack / Discord
- SGLang 中文社区讨论
相关章节
推荐学习路径
- 先读 SGLang 论文,理解 LLM Program 与 RadixAttention 的设计动机。
- 阅读官方文档的 Architecture 和 Sampling 部分。
- 阅读源码中的
python/sglang/srt/managers/scheduler.py和radix_cache.py。 - 结合生产实践文章,思考在自己的 Agent / 多轮场景中如何部署。