Skip to content

企业生产实践

把 AI 安全从“概念”落地到生产环境,需要在组织流程、技术架构和运营机制上同时发力。

1. 共享责任模型

在云原生 AI 平台中,安全责任由多方共担:

责任方典型职责
云厂商基础设施、物理安全、 hypervisor、KMS、网络隔离
平台团队K8s 安全、Service Mesh、secret 管理、可观测、策略引擎
模型/算法团队数据清洗、模型安全、对齐、 red teaming
应用团队代码安全、Prompt 审计、工具权限、用户授权
安全/合规团队策略制定、审计、事件响应、合规认证

关键:明确责任边界,避免“都认为不是自己负责”的灰色地带。

2. 多租户隔离

AI SaaS 平台通常服务多个租户,隔离不到位会导致数据外泄或越权:

  • 身份隔离:每个租户独立的 IdP 或 tenant claim。
  • 密钥隔离:tenant-specific API key,存储在不同路径/不同 KMS key。
  • 数据隔离
    • 向量库按 tenant 分 collection/index,配合 ReBAC。
    • 对象存储按 prefix/bucket 隔离,使用 IAM condition。
  • 网络隔离:namespace per tenant,NetworkPolicy 限制跨租户流量。
  • 运行时隔离:敏感租户使用独立节点池或 sandbox。

3. 零信任落地路径

  1. 资产盘点:列出所有模型服务、Agent、向量库、数据湖、外部 API。
  2. 身份化:为每个工作负载分配 SPIFFE/SPIRE 或云原生 workload identity。
  3. 最小权限网络:默认拒绝所有流量,按服务依赖逐步放通。
  4. mTLS 全覆盖:服务间通信全部双向认证。
  5. 策略即代码:用 OPA/Istio AuthorizationPolicy 描述允许的行为。
  6. 持续验证:监控异常流量、凭证使用、Guardrail 触发率。

4. 密钥生命周期管理

  • 生成:使用 KMS/CSPRNG,避免人工生成弱密钥。
  • 分发:通过 Vault / external-secrets / CSI driver 注入,不落盘。
  • 使用:内存中存储,避免日志打印,定期轮换。
  • 监控:审计每一次密钥读取,设置异常使用告警。
  • 吊销:密钥泄露时立即吊销并触发依赖服务重载。
  • 退役:过期密钥归档或销毁,避免僵尸凭证。

5. Guardrails 的生产部署

  • 多层过滤
    • 网关层:粗粒度拦截(明显注入、毒性关键词)。
    • 模型前:细粒度分类器(Llama Guard、Moderation API)。
    • 模型后:输出过滤与 PII 脱敏。
  • 异步 vs 同步:高风险场景可异步审核,低风险场景同步拦截。
  • 人在回路:金融、医疗、法律等高风险输出保留人工审批。
  • 持续迭代:根据红队结果和用户举报更新规则与模型。

6. 红队与对抗测试

  • 提示注入:直接、间接、多轮、编码/翻译绕过。
  • 越狱:角色扮演、DAN、Base64、多语言混合。
  • 数据外泄:通过大量查询提取训练数据或系统提示。
  • 工具滥用:尝试让 Agent 调用未授权工具或超出范围。
  • 供应链:替换模型文件、依赖包、Prompt 模板。
  • 工具:OWASP LLM Top 10、MITRE ATLAS、PyRIT、Garak、PromptMap。

7. 合规审计与证据链

  • 模型卡片:记录模型能力、限制、风险、训练数据、评估结果。
  • 数据血缘:DVC、MLflow、OpenLineage 记录数据与模型版本关系。
  • 审计日志:保留期限符合法规,关键日志不可篡改。
  • 影响评估:高风险 AI 系统上线前进行 AI Impact Assessment(AIA)。
  • 第三方审查:SOC 2、ISO 27001、 penetration test、red team report。

8. 事件响应 Playbook 示例

事件类型关键动作
API Key 泄露吊销密钥 → 审计影响范围 → 通知租户 → 复盘轮换流程
提示注入大规模成功临时收紧 Guardrails → 收集样本 → 更新模型/规则 → 红队复测
模型被窃撤销模型访问 → 启用水印追踪 → 法务介入 → 加强模型仓库权限
训练数据污染隔离数据集 → 回溯血缘 → 重训/回滚模型 → 更新数据清洗流程
有害内容大量生成人工介入审核 → 降级/关闭相关功能 → 根因分析 → 更新安全对齐

9. 供应商风险管理

  • 模型供应商:数据使用条款、训练数据是否包含用户输入、 retention 政策、合规认证。
  • SaaS 工具:SOC 2、GDPR DPA、数据跨境条款、subprocessor 列表。
  • 开源依赖:许可证、漏洞、维护状态、SBOM。

10. 常见反模式

反模式风险修正
把 LLM API Key 存在代码仓库泄露后难以发现与轮换使用 Vault / Secret Manager
所有 Agent 共享同一高权限账号一次被攻破影响全局按 capability 分账、short-lived token
只依赖前端过滤容易被绕过服务端多层 Guardrails
不记录模型调用日志无法审计与溯源append-only audit log
上线前不做红队测试注入/越狱风险未知自动化 + 人工 red team

小结

企业生产实践的关键在于:责任清晰、租户隔离、零信任落地、密钥全生命周期管理、持续红队与合规审计。下一章把经验浓缩为可落地的最佳实践检查清单。

Released under CC-BY-SA-4.0 License.