企业生产实践

把 RAG 从 Demo 搬到生产，需要解决索引规模、实时性、多租户、安全、成本、可观测性等一系列工程问题。本章按主题给出落地经验。

1. 大规模索引

问题	实践
文档量大	分布式 embedding 服务 + 异步任务队列（Celery / Temporal / Argo）
索引时间长	批量编码、pipeline 并行、增量更新
版本管理	为每个索引版本打标签，支持灰度切换与回滚
脏数据	在 parser 阶段做质量打分，过滤低质量文档

注意向量索引的 delete/upsert 支持度不同，选型时要确认是否支持真正的删除而非仅标记。

隔离级别	实现	适用
物理隔离	每个 tenant 独立 collection/index	强合规、高价值客户
逻辑隔离	同一索引用 tenant_id metadata 过滤	成本敏感、租户多
混合隔离	大客户独立索引，小客户共享索引+过滤	SaaS 平台常见

关键点：

缓存能显著降低 embedding 和 LLM 调用成本，但要注意缓存失效与答案时效性。

手段	效果
减小 chunk	降低 embedding 与检索开销
ANN 索引	用可接受的精度损失换检索速度
异步 embedding	把索引阶段成本摊平到离线
轻量 reranker	在线用 BGE-Reranker 替代大 cross-encoder
模型路由	简单问题走小模型，复杂问题走大模型
结果缓存	减少重复 LLM 调用

故障	现象	应对
空召回	检索不到相关 chunk	改写查询、放宽过滤、fallback
低质量召回	召回结果不相关	Multi-Query、Hybrid、Reranker 调优
幻觉引用	模型引用不存在	引用校验、降低 temperature
延迟飙升	检索或生成超时	缓存、超时降级、批量限制
索引落后	答案基于旧文档	增量更新、版本切换、 freshness 权重
租户越权	用户看到他人数据	前置过滤 + ACL 校验

生产 RAG 的核心挑战不是“让检索跑通”，而是让检索在大规模、多租户、强合规、高可用的条件下持续稳定。把可观测性、缓存、权限、评估闭环做扎实，才能把 RAG 从玩具变成业务基础设施。