背景:为什么 AI 系统需要专门的安全体系
传统软件安全已经建立了一套成熟的方法:WAF、RASP、IAM、 secrets management、漏洞扫描、SOC。但当系统引入大模型、Agent、RAG、外部工具链后,攻击面从“代码与网络”扩展到了“自然语言、模型权重、训练数据、工具调用与非人类身份”。原有的控制点不再足够。
从传统应用到 AI 系统的攻击面演进
| 维度 | 传统应用 | AI 系统 |
|---|---|---|
| 输入空间 | 结构化数据、固定协议 | 开放自然语言,几乎无限 |
| 核心资产 | 代码、数据库、配置 | 模型权重、训练数据、Embedding、向量库、Prompt |
| 执行主体 | 人类用户 + 服务账号 | 人类、Agent、模型、MCP Server、插件 |
| 敏感信息 | PII、支付信息、密码 | 系统提示、API Key、模型记忆、RAG 片段 |
| 失败模式 | 越权、注入、数据泄露 | 提示注入、越狱、工具滥用、模型窃取、幻觉 |
| 供应链 | 代码库、依赖包 | 基础模型、LoRA、数据集、向量库、Prompt 仓库 |
AI 系统特有的关键威胁
提示注入(Prompt Injection) 攻击者通过构造输入覆盖系统提示或诱导模型执行非预期操作。分为直接注入(用户输入)和间接注入(外部文档、网页、邮件)。
越狱与系统提示泄露(Jailbreak / System Prompt Extraction) 通过角色扮演、编码、翻译等技巧绕过安全对齐;或通过特定提问让模型输出隐藏的系统提示。
工具与 Agent 滥用(Tool / Agent Abuse) Agent 被诱导调用高权限工具、访问敏感数据、发送邮件、删除资源。OWASP LLM Top 10 中的 Excessive Agency 和 Insecure Plugin Design 都属于此类。
数据与模型外泄(Data / Model Exfiltration) 通过大量查询提取训练数据、模型参数或向量库内容;模型文件、权重被窃取后可在异地部署。
模型供应链攻击(Supply Chain) 基础模型、微调适配器、训练数据、Python/Node 依赖中任何一个环节被投毒,都会在下游放大。
幻觉导致的安全与合规风险 模型生成错误代码、错误医疗/法律建议、泄露不存在的事实,可能引发法律责任与品牌危机。
非人类身份爆炸(Non-Human Identity Explosion) API Key、Service Account、Workload Identity、Agent-to-Agent 身份数量远超人类用户,传统 IAM 无法有效管理。
为什么传统控制不够
- WAF 不懂语义:基于签名的 Web 防火墙无法识别自然语言中的注入或越狱。
- RBAC 粒度太粗:模型、工具、数据片段需要细粒度、动态的授权决策(ABAC/ReBAC)。
- 密钥管理跟不上:LLM API Key 被复制到 countless notebooks、CI pipeline、本地环境,难以轮换与审计。
- 边界防御失效:模型训练数据来自外部,推理服务需要访问多个 SaaS,传统“内网可信”假设不再成立。
- 静态扫描漏掉模型资产:SAST/DAST 不检查模型权重、Embedding、向量库、Prompt 仓库。
合规与业务驱动
- 法规:欧盟 AI Act、GDPR、美国 CCPA/CPRA、中国《生成式人工智能服务管理暂行办法》等都对 AI 系统提出透明度、数据最小化、人类监督、审计等要求。
- 标准:NIST AI Risk Management Framework(AI RMF)、ISO/IEC 27001、SOC 2 Type II、HIPAA 正在成为企业采购 AI 服务的门槛。
- 商业:数据泄露、模型被窃、有害内容生成可能直接造成罚款、诉讼、客户流失。
小结
AI 系统把“代码执行”变成了“模型推理 + 工具调用 + 知识检索”。这要求安全体系从边界防御转向以身份、数据和模型为中心的内生安全。下一章将从核心思想出发,建立统一的安全原则集。