Skip to content

背景:为什么 AI 系统需要专门的安全体系

传统软件安全已经建立了一套成熟的方法:WAF、RASP、IAM、 secrets management、漏洞扫描、SOC。但当系统引入大模型、Agent、RAG、外部工具链后,攻击面从“代码与网络”扩展到了“自然语言、模型权重、训练数据、工具调用与非人类身份”。原有的控制点不再足够。

从传统应用到 AI 系统的攻击面演进

维度传统应用AI 系统
输入空间结构化数据、固定协议开放自然语言,几乎无限
核心资产代码、数据库、配置模型权重、训练数据、Embedding、向量库、Prompt
执行主体人类用户 + 服务账号人类、Agent、模型、MCP Server、插件
敏感信息PII、支付信息、密码系统提示、API Key、模型记忆、RAG 片段
失败模式越权、注入、数据泄露提示注入、越狱、工具滥用、模型窃取、幻觉
供应链代码库、依赖包基础模型、LoRA、数据集、向量库、Prompt 仓库

AI 系统特有的关键威胁

  1. 提示注入(Prompt Injection) 攻击者通过构造输入覆盖系统提示或诱导模型执行非预期操作。分为直接注入(用户输入)和间接注入(外部文档、网页、邮件)。

  2. 越狱与系统提示泄露(Jailbreak / System Prompt Extraction) 通过角色扮演、编码、翻译等技巧绕过安全对齐;或通过特定提问让模型输出隐藏的系统提示。

  3. 工具与 Agent 滥用(Tool / Agent Abuse) Agent 被诱导调用高权限工具、访问敏感数据、发送邮件、删除资源。OWASP LLM Top 10 中的 Excessive AgencyInsecure Plugin Design 都属于此类。

  4. 数据与模型外泄(Data / Model Exfiltration) 通过大量查询提取训练数据、模型参数或向量库内容;模型文件、权重被窃取后可在异地部署。

  5. 模型供应链攻击(Supply Chain) 基础模型、微调适配器、训练数据、Python/Node 依赖中任何一个环节被投毒,都会在下游放大。

  6. 幻觉导致的安全与合规风险 模型生成错误代码、错误医疗/法律建议、泄露不存在的事实,可能引发法律责任与品牌危机。

  7. 非人类身份爆炸(Non-Human Identity Explosion) API Key、Service Account、Workload Identity、Agent-to-Agent 身份数量远超人类用户,传统 IAM 无法有效管理。

为什么传统控制不够

  • WAF 不懂语义:基于签名的 Web 防火墙无法识别自然语言中的注入或越狱。
  • RBAC 粒度太粗:模型、工具、数据片段需要细粒度、动态的授权决策(ABAC/ReBAC)。
  • 密钥管理跟不上:LLM API Key 被复制到 countless notebooks、CI pipeline、本地环境,难以轮换与审计。
  • 边界防御失效:模型训练数据来自外部,推理服务需要访问多个 SaaS,传统“内网可信”假设不再成立。
  • 静态扫描漏掉模型资产:SAST/DAST 不检查模型权重、Embedding、向量库、Prompt 仓库。

合规与业务驱动

  • 法规:欧盟 AI Act、GDPR、美国 CCPA/CPRA、中国《生成式人工智能服务管理暂行办法》等都对 AI 系统提出透明度、数据最小化、人类监督、审计等要求。
  • 标准:NIST AI Risk Management Framework(AI RMF)、ISO/IEC 27001、SOC 2 Type II、HIPAA 正在成为企业采购 AI 服务的门槛。
  • 商业:数据泄露、模型被窃、有害内容生成可能直接造成罚款、诉讼、客户流失。

小结

AI 系统把“代码执行”变成了“模型推理 + 工具调用 + 知识检索”。这要求安全体系从边界防御转向以身份、数据和模型为中心的内生安全。下一章将从核心思想出发,建立统一的安全原则集。

Released under CC-BY-SA-4.0 License.