Mini SGLang

一个用于教学的简化版 SGLang 实现，展示两个核心思想：

注意：这是教学演示，不是生产可用的推理引擎。真实 SGLang 依赖 GPU、CUDA kernel、完整的 Transformer 实现以及 xgrammar 等结构化解码库。

环境要求

bash

cd docs/04-llmops/sglang/mini-demo
python -m venv .venv
source .venv/bin/activate
pip install -e ".[dev]"

bash

python -m sglang_mini.demo

bash

pytest tests/ -q

文件	职责
`sglang_mini/radix_tree.py`	Radix Tree：前缀匹配、插入、引用计数、LRU 回收
`sglang_mini/cache_manager.py`	基于 Radix Tree 的 dummy KV Cache 管理器
`sglang_mini/fsm.py`	简化 regex 到 NFA 的编译器
`sglang_mini/structured_sampler.py`	结合 FSM 与 logits 的约束采样器
`sglang_mini/runtime.py`	简单 Runtime：调度 + cache + 采样
`sglang_mini/dummy_model.py`	生成 dummy logits 的小模型
`sglang_mini/demo.py`	入口脚本，演示前缀共享与结构化生成
`tests/test_radix_tree.py`	Radix Tree 单元测试
`tests/test_structured_sampler.py`	FSM 约束采样单元测试

方面	Mini Demo	真实 SGLang
模型	Dummy 小模型	真实 Transformer
Attention	未实现	FlashInfer / FlashAttention / MLA
Radix Tree	纯 Python	C++/CUDA 高性能实现（HiCache / UnifiedRadixTree）
结构化	简化 regex	xgrammar / outlines 完整集成
Runtime	单线程模拟	多进程、异步、编译优化