Skip to content

Agent Reflection 总览

一句话理解:Agent Reflection 是 Agent 的“自省系统”,让 Agent 在生成结果后主动批判、评估、修订,从而把“一次性回答”进化成“持续优化的输出”。

本主题适合谁

  • 正在设计或实现 Agent 系统的工程师,希望理解反思层如何与 Runtime、Memory、Multi-Agent 配合。
  • 发现单轮 LLM 或 ReAct 在复杂任务中仍然出错的开发者。
  • 负责代码生成、内容创作、规划决策、工具调用等高要求场景的架构师。
  • 准备 AI Infra 相关面试的候选人。

学习目标

阅读完本主题后,你应该能够:

  1. 解释为什么单轮 LLM 和 ReAct 仍然需要独立的 Reflection 机制。
  2. 说明 Reflection 的核心思想:生成、批判、评估、修订的闭环。
  3. 区分内部反馈与外部反馈、行动反思与计划反思、个体反思与群体反思。
  4. 画出 Agent Reflection 的分层架构,并说明与 Generator、Critic、Evaluator、Revision Controller 的关系。
  5. 描述 Reflection Loop 的完整状态流转与终止条件。
  6. 对比 Self-Refine、Reflexion、CRITIC、Tree of Thoughts、LangGraph Reflection、AutoGen Reflection、OpenAI o1 的设计取舍。
  7. 知道如何为自己的 Agent 选择 Critic 模型、评分标准、终止策略与人工兜底方案。
  8. 理解 Mini Demo 的设计与运行方式,能在本地复现“生成—批判—修订”过程。
  9. 回答关于 Reflection 与 ReAct 区别、Critic 设计、避免无限循环、与 Memory 集成等面试问题。

Agent Reflection 与其他主题的关系

主题解决的核心问题与 Agent Reflection 的关系
Agent Runtime如何安全、可观测地执行 Agent 任务Runtime 提供 ReAct 循环与工具执行环境,Reflection 在此基础上叠加“生成—批判—修订”闭环
Agent Memory如何保留并利用上下文与经验Reflection 产生的 critique、score、revision 可以写入 Memory,形成可复用的经验教训
Agent Reflection如何让 Agent 主动发现并修正自身错误承上启下,把“即时生成”转化为“迭代优化”
Multi-Agent多 Agent 如何分工协作群体反思(Group Reflection)依赖 Multi-Agent 的通信与协调机制
Planning如何分解与重规划任务Plan Reflection 在规划层面做批判与重规划,是 Reflection 与 Planning 的交汇点
Tool Use工具调用与执行Tool-use Reflection 专门反思工具选择、参数填充与调用结果
MCP工具发现与调用协议Reflection 可以调用外部验证工具(如编译器、单元测试、检索)获取客观反馈;MCP 提供标准化工具发现
Tool Use(后续主题)Agent 如何使用外部工具Tool-use Reflection 专门反思工具选择、参数填充与调用结果

上表可以概括为一句话:Agent Runtime 决定“怎么执行”,Memory 决定“记住什么”,Reflection 决定“怎么发现错误并改得更好”

本章结构

  1. 背景 — 单轮 LLM 与 ReAct 的局限、人类元认知启发、Reflection 演进阶段、典型场景。
  2. 核心思想 — 生成 + 批判 + 评估 + 修订、内部/外部反馈、行动/计划反思、个体/群体反思、与 Memory 集成。
  3. 架构设计 — Generator / Critic / Evaluator / Revision Controller / Workspace / Reflection Memory / Policy / Observer / Human Gate。
  4. 反思循环 — generate → critique → score → revise → terminate,状态与序列图、终止条件、护栏、HITL。
  5. 核心模块 — 各模块职责、输入输出、关键接口、生产注意事项。
  6. 源码分析 — Self-Refine、Reflexion、CRITIC、Tree of Thoughts、LangGraph Reflection、AutoGen Reflection、OpenAI o1 / reasoning models。
  7. 工程实践 — 纯 Python Mini Demo 设计与运行说明。
  8. 企业生产实践 — 何时启用 Reflection、Critic 模型选择、评分校准、在线/离线反思、与 Runtime/Memory 集成、评测基准。
  9. 最佳实践 — criteria-first、聚焦 Critic、避免无限循环、人工兜底、持久化反思结果、策略版本管理。
  10. 面试题 — 初级/中级/高级面试题。
  11. 延伸阅读 — 官方文档、论文、工程文章、相关主题、学习路径。

一句话总结

Agent Reflection 不是让 LLM 多生成几轮,而是让 Agent 在生成后主动批判自身输出、量化质量、定向修订,并把反思过程与结果沉淀为可复用的经验,从而在代码、写作、规划、工具使用等复杂任务中持续逼近正确解。

本章小结

Agent Reflection 是 Agent 基础设施中负责“自我纠错”的一层:它向上为 Agent Runtime 提供生成—批判—评估—修订的闭环能力,向下依赖 Memory 保存反思经验、依赖 Multi-Agent 实现群体反思、依赖外部工具获取客观反馈。它与 Runtime、Memory、Planning、Multi-Agent、Tool Use、MCP 都有清晰边界,核心目标是让 Agent 从“一次性回答”进化为“迭代优化”。

参考来源

Released under CC-BY-SA-4.0 License.