Skip to content

LLMOps 篇

本章节覆盖大模型推理、部署与服务的工程实践。

已上线主题

  • vLLM:开源高性能 LLM 推理引擎
  • SGLang:面向 LLM Program 的推理引擎,强调 RadixAttention 与结构化生成
  • TensorRT-LLM:NVIDIA 高性能编译型 LLM 推理引擎
  • Triton Inference Server:NVIDIA 开源多框架推理服务软件,统一承载多种推理后端
  • LLM Gateway:位于客户端与推理后端之间的访问控制与抽象层

计划中主题

暂无明确计划,后续会根据社区反馈补充 LLMOps 周边主题。

一句话理解

LLMOps 的核心问题:在有限的 GPU 显存和算力下,以最低的延迟和最高的吞吐服务大模型。

vLLM 与 SGLang 已作为前两个完整主题上线,后续将持续补充 TensorRT-LLM、Triton、LLM Gateway 等内容。

Released under CC-BY-SA-4.0 License.