LLMOps 篇
本章节覆盖大模型推理、部署与服务的工程实践。
已上线主题
- vLLM:开源高性能 LLM 推理引擎
- SGLang:面向 LLM Program 的推理引擎,强调 RadixAttention 与结构化生成
- TensorRT-LLM:NVIDIA 高性能编译型 LLM 推理引擎
- Triton Inference Server:NVIDIA 开源多框架推理服务软件,统一承载多种推理后端
- LLM Gateway:位于客户端与推理后端之间的访问控制与抽象层
计划中主题
暂无明确计划,后续会根据社区反馈补充 LLMOps 周边主题。
一句话理解
LLMOps 的核心问题:在有限的 GPU 显存和算力下,以最低的延迟和最高的吞吐服务大模型。
vLLM 与 SGLang 已作为前两个完整主题上线,后续将持续补充 TensorRT-LLM、Triton、LLM Gateway 等内容。