企业生产实践
把 AI 安全从“概念”落地到生产环境,需要在组织流程、技术架构和运营机制上同时发力。
1. 共享责任模型
在云原生 AI 平台中,安全责任由多方共担:
| 责任方 | 典型职责 |
|---|---|
| 云厂商 | 基础设施、物理安全、 hypervisor、KMS、网络隔离 |
| 平台团队 | K8s 安全、Service Mesh、secret 管理、可观测、策略引擎 |
| 模型/算法团队 | 数据清洗、模型安全、对齐、 red teaming |
| 应用团队 | 代码安全、Prompt 审计、工具权限、用户授权 |
| 安全/合规团队 | 策略制定、审计、事件响应、合规认证 |
关键:明确责任边界,避免“都认为不是自己负责”的灰色地带。
2. 多租户隔离
AI SaaS 平台通常服务多个租户,隔离不到位会导致数据外泄或越权:
- 身份隔离:每个租户独立的 IdP 或 tenant claim。
- 密钥隔离:tenant-specific API key,存储在不同路径/不同 KMS key。
- 数据隔离:
- 向量库按 tenant 分 collection/index,配合 ReBAC。
- 对象存储按 prefix/bucket 隔离,使用 IAM condition。
- 网络隔离:namespace per tenant,NetworkPolicy 限制跨租户流量。
- 运行时隔离:敏感租户使用独立节点池或 sandbox。
3. 零信任落地路径
- 资产盘点:列出所有模型服务、Agent、向量库、数据湖、外部 API。
- 身份化:为每个工作负载分配 SPIFFE/SPIRE 或云原生 workload identity。
- 最小权限网络:默认拒绝所有流量,按服务依赖逐步放通。
- mTLS 全覆盖:服务间通信全部双向认证。
- 策略即代码:用 OPA/Istio AuthorizationPolicy 描述允许的行为。
- 持续验证:监控异常流量、凭证使用、Guardrail 触发率。
4. 密钥生命周期管理
- 生成:使用 KMS/CSPRNG,避免人工生成弱密钥。
- 分发:通过 Vault / external-secrets / CSI driver 注入,不落盘。
- 使用:内存中存储,避免日志打印,定期轮换。
- 监控:审计每一次密钥读取,设置异常使用告警。
- 吊销:密钥泄露时立即吊销并触发依赖服务重载。
- 退役:过期密钥归档或销毁,避免僵尸凭证。
5. Guardrails 的生产部署
- 多层过滤:
- 网关层:粗粒度拦截(明显注入、毒性关键词)。
- 模型前:细粒度分类器(Llama Guard、Moderation API)。
- 模型后:输出过滤与 PII 脱敏。
- 异步 vs 同步:高风险场景可异步审核,低风险场景同步拦截。
- 人在回路:金融、医疗、法律等高风险输出保留人工审批。
- 持续迭代:根据红队结果和用户举报更新规则与模型。
6. 红队与对抗测试
- 提示注入:直接、间接、多轮、编码/翻译绕过。
- 越狱:角色扮演、DAN、Base64、多语言混合。
- 数据外泄:通过大量查询提取训练数据或系统提示。
- 工具滥用:尝试让 Agent 调用未授权工具或超出范围。
- 供应链:替换模型文件、依赖包、Prompt 模板。
- 工具:OWASP LLM Top 10、MITRE ATLAS、PyRIT、Garak、PromptMap。
7. 合规审计与证据链
- 模型卡片:记录模型能力、限制、风险、训练数据、评估结果。
- 数据血缘:DVC、MLflow、OpenLineage 记录数据与模型版本关系。
- 审计日志:保留期限符合法规,关键日志不可篡改。
- 影响评估:高风险 AI 系统上线前进行 AI Impact Assessment(AIA)。
- 第三方审查:SOC 2、ISO 27001、 penetration test、red team report。
8. 事件响应 Playbook 示例
| 事件类型 | 关键动作 |
|---|---|
| API Key 泄露 | 吊销密钥 → 审计影响范围 → 通知租户 → 复盘轮换流程 |
| 提示注入大规模成功 | 临时收紧 Guardrails → 收集样本 → 更新模型/规则 → 红队复测 |
| 模型被窃 | 撤销模型访问 → 启用水印追踪 → 法务介入 → 加强模型仓库权限 |
| 训练数据污染 | 隔离数据集 → 回溯血缘 → 重训/回滚模型 → 更新数据清洗流程 |
| 有害内容大量生成 | 人工介入审核 → 降级/关闭相关功能 → 根因分析 → 更新安全对齐 |
9. 供应商风险管理
- 模型供应商:数据使用条款、训练数据是否包含用户输入、 retention 政策、合规认证。
- SaaS 工具:SOC 2、GDPR DPA、数据跨境条款、subprocessor 列表。
- 开源依赖:许可证、漏洞、维护状态、SBOM。
10. 常见反模式
| 反模式 | 风险 | 修正 |
|---|---|---|
| 把 LLM API Key 存在代码仓库 | 泄露后难以发现与轮换 | 使用 Vault / Secret Manager |
| 所有 Agent 共享同一高权限账号 | 一次被攻破影响全局 | 按 capability 分账、short-lived token |
| 只依赖前端过滤 | 容易被绕过 | 服务端多层 Guardrails |
| 不记录模型调用日志 | 无法审计与溯源 | append-only audit log |
| 上线前不做红队测试 | 注入/越狱风险未知 | 自动化 + 人工 red team |
小结
企业生产实践的关键在于:责任清晰、租户隔离、零信任落地、密钥全生命周期管理、持续红队与合规审计。下一章把经验浓缩为可落地的最佳实践检查清单。