背景：为什么 AI 系统需要专门的安全体系

传统软件安全已经建立了一套成熟的方法：WAF、RASP、IAM、 secrets management、漏洞扫描、SOC。但当系统引入大模型、Agent、RAG、外部工具链后，攻击面从“代码与网络”扩展到了“自然语言、模型权重、训练数据、工具调用与非人类身份”。原有的控制点不再足够。

从传统应用到 AI 系统的攻击面演进

维度	传统应用	AI 系统
输入空间	结构化数据、固定协议	开放自然语言，几乎无限
核心资产	代码、数据库、配置	模型权重、训练数据、Embedding、向量库、Prompt
执行主体	人类用户 + 服务账号	人类、Agent、模型、MCP Server、插件
敏感信息	PII、支付信息、密码	系统提示、API Key、模型记忆、RAG 片段
失败模式	越权、注入、数据泄露	提示注入、越狱、工具滥用、模型窃取、幻觉
供应链	代码库、依赖包	基础模型、LoRA、数据集、向量库、Prompt 仓库

提示注入（Prompt Injection） 攻击者通过构造输入覆盖系统提示或诱导模型执行非预期操作。分为直接注入（用户输入）和间接注入（外部文档、网页、邮件）。
越狱与系统提示泄露（Jailbreak / System Prompt Extraction） 通过角色扮演、编码、翻译等技巧绕过安全对齐；或通过特定提问让模型输出隐藏的系统提示。
工具与 Agent 滥用（Tool / Agent Abuse） Agent 被诱导调用高权限工具、访问敏感数据、发送邮件、删除资源。OWASP LLM Top 10 中的 Excessive Agency 和 Insecure Plugin Design 都属于此类。
数据与模型外泄（Data / Model Exfiltration） 通过大量查询提取训练数据、模型参数或向量库内容；模型文件、权重被窃取后可在异地部署。
模型供应链攻击（Supply Chain） 基础模型、微调适配器、训练数据、Python/Node 依赖中任何一个环节被投毒，都会在下游放大。
幻觉导致的安全与合规风险 模型生成错误代码、错误医疗/法律建议、泄露不存在的事实，可能引发法律责任与品牌危机。
非人类身份爆炸（Non-Human Identity Explosion） API Key、Service Account、Workload Identity、Agent-to-Agent 身份数量远超人类用户，传统 IAM 无法有效管理。

法规：欧盟 AI Act、GDPR、美国 CCPA/CPRA、中国《生成式人工智能服务管理暂行办法》等都对 AI 系统提出透明度、数据最小化、人类监督、审计等要求。
标准：NIST AI Risk Management Framework（AI RMF）、ISO/IEC 27001、SOC 2 Type II、HIPAA 正在成为企业采购 AI 服务的门槛。
商业：数据泄露、模型被窃、有害内容生成可能直接造成罚款、诉讼、客户流失。

AI 系统把“代码执行”变成了“模型推理 + 工具调用 + 知识检索”。这要求安全体系从边界防御转向以身份、数据和模型为中心的内生安全。下一章将从核心思想出发，建立统一的安全原则集。