Skip to content

背景:为什么需要 Agent OS

一句话理解:当 Agent 从“单次调用的脚本”变成“长期运行、多实例、多租户、需要治理的生产系统”时,我们就需要像操作系统管理进程一样来管理 Agent。

从单 Agent 脚本到生产系统

早期的 LLM Agent 通常是一段 Python 脚本:

python
response = llm.chat("帮我查一下北京天气,然后推荐一家餐厅")
# 手动解析、调用工具、再拼接 prompt

这种形式适合原型验证,但很快会遇到问题:

  • 多个 Agent 同时运行时,如何分配 CPU/内存/Token 预算?
  • Agent 调用外部工具失败或陷入死循环时,如何超时、暂停、回滚?
  • 不同 Agent 需要访问不同的工具集合,如何统一授权与审计?
  • Agent 之间需要通信与协作,如何避免消息混乱、状态冲突?
  • 长程任务需要中断后继续,如何持久化状态并恢复?

这些问题正是传统操作系统解决过的问题:进程调度、资源隔离、文件系统、IPC、权限模型、审计日志。Agent OS 把这些概念迁移到 Agent 世界。

Ad-hoc 编排的局限

在没有 Agent OS 之前,开发者常用以下方式组合 Agent:

  1. 脚本编排:用 for 循环或 DAG 框架(如 Airflow、Prefect)把多个 Agent 串起来。
  2. Workflow 引擎:把 Agent 当作普通节点,用固定 DAG 描述流程。
  3. 消息队列:用 Kafka/RabbitMQ 做 Agent 间通信。
  4. 容器/函数:每个 Agent 一个 Docker 容器或 Serverless 函数。

这些方案各有优势,但都存在明显局限:

方案局限
脚本编排缺乏统一生命周期、资源限制、失败恢复、审计
Workflow 引擎把 Agent 当作静态节点,难以支持动态规划与重规划
消息队列只有通信,没有进程隔离、能力注册、权限治理
容器/函数隔离强但调度粗、启动慢、Token/LLM 调用成本难以精细化控制

Agent OS 不是替代这些方案,而是在它们之上增加一层语义:Agent 作为一等公民的进程抽象

学术界的动机

AIOS:LLM Agent Operating System

AIOS(arXiv:2403.16971)明确提出把 LLM 作为操作系统内核,把 Agent 作为应用进程。它设计了:

  • Agent Scheduler:解决多个 Agent 请求的调度问题。
  • Context Manager:管理每个 Agent 的上下文窗口。
  • Memory Manager:提供短期与长期记忆存储。
  • Storage Manager:持久化 Agent 状态。
  • Tool Manager / Access Manager:管理工具注册与权限。

AIOS 的核心洞察是:LLM 的上下文窗口、调用延迟、工具访问都是稀缺资源,需要 OS 风格的统一管理。

来源:AIOS: LLM Agent Operating System

LLM as OS, Agents as Apps

该论文(arXiv:2312.03815)把 LLM 类比为操作系统内核,Agent 类比为应用程序。它强调:

  • LLM 提供“计算”与“知识”。
  • Agent 通过“系统调用”(如工具调用、记忆读写)使用 LLM 能力。
  • 需要新的 OS 抽象来管理 Agent 的资源、状态与交互。

来源:LLM as OS, Agents as Apps

Agent libOS 与 Quine

  • Agent libOS(arXiv:2606.03895)提出把 OS 服务作为库链接到 Agent 中,适合嵌入式/边缘场景。
  • Quine(arXiv:2603.18030)提出让 LLM Agent 成为原生 POSIX 进程,可以直接使用 fork/exec、信号、文件描述符等机制。

这些工作说明 Agent OS 的形态可以是内核式、库式、进程式,取决于部署场景。

来源:

工业界的动机

多 Agent 生产系统的治理需求

随着 Claude、OpenAI、Google 等平台推出 Agent 能力,企业开始部署大量 Agent:

  • 客服 Agent、代码 Agent、数据分析 Agent、运维 Agent 同时运行。
  • 同一 Agent 的多个实例处理不同租户/用户的请求。
  • Agent 调用外部 API、数据库、代码解释器,存在安全风险。
  • 需要审计“哪个 Agent、在什么时间、以什么权限、调用了什么工具”。

这些需求催生了工业界的 Agent OS/Agent Governance 实践:

  • Rivet agentOSFramers AgentOS:面向 Agent 生命周期的管理平台。
  • Microsoft Agent Governance Toolkit:提供 Agent 注册、策略、审计、 consent 管理。
  • agiresearch/AIOS:开源 AIOS 实现。

MCP 推动的 Host 层治理

MCP(Model Context Protocol)把工具/资源抽象为 Server,Host 负责管理 Client 与 Server 的生命周期、能力协商与权限边界。MCP Host 本质上就是 Agent OS 的“系统调用层”。

Governed MCP(arXiv:2604.16870)进一步提出在 MCP Host 层增加策略引擎,对每一次工具调用进行审批、审计与约束。

来源:

为什么现在需要 Agent OS

Agent OS 的兴起不是偶然,而是由以下趋势共同推动:

  1. Agent 数量爆炸:从“一个 Agent 做所有事”到“数百个专精 Agent 协作”。
  2. 任务长程化:Agent 任务从单次问答扩展到小时级、天级的持续执行。
  3. 调用成本敏感:LLM Token、工具调用、外部 API 都需要预算控制。
  4. 安全合规压力:Agent 访问敏感数据与系统,必须可授权、可审计、可回滚。
  5. Multi-Agent 与 MCP 标准化:Agent 之间、Agent 与工具之间需要统一协议,Agent OS 是协议落地的基础设施。

本章小结

  • 单 Agent 脚本无法解决多实例、多租户、长程任务、资源隔离、审计治理等问题。
  • 学术界提出 AIOS、LLM as OS、Agent libOS、Quine 等方向,把 OS 抽象引入 Agent 世界。
  • 工业界需要 Agent OS 来管理成百上千个 Agent 的生命周期、权限、成本与可观测性。
  • MCP Host 与 Governed MCP 代表了 Agent OS 在工具/能力治理方向的关键实践。

参考来源

Released under CC-BY-SA-4.0 License.