LLMOps 篇

本章节覆盖大模型推理、部署与服务的工程实践。

已上线主题

vLLM：开源高性能 LLM 推理引擎
SGLang：面向 LLM Program 的推理引擎，强调 RadixAttention 与结构化生成
TensorRT-LLM：NVIDIA 高性能编译型 LLM 推理引擎
Triton Inference Server：NVIDIA 开源多框架推理服务软件，统一承载多种推理后端
LLM Gateway：位于客户端与推理后端之间的访问控制与抽象层

计划中主题

暂无明确计划，后续会根据社区反馈补充 LLMOps 周边主题。

一句话理解

LLMOps 的核心问题：在有限的 GPU 显存和算力下，以最低的延迟和最高的吞吐服务大模型。

vLLM 与 SGLang 已作为前两个完整主题上线，后续将持续补充 TensorRT-LLM、Triton、LLM Gateway 等内容。