Agent Reflection 总览
一句话理解:Agent Reflection 是 Agent 的“自省系统”,让 Agent 在生成结果后主动批判、评估、修订,从而把“一次性回答”进化成“持续优化的输出”。
本主题适合谁
- 正在设计或实现 Agent 系统的工程师,希望理解反思层如何与 Runtime、Memory、Multi-Agent 配合。
- 发现单轮 LLM 或 ReAct 在复杂任务中仍然出错的开发者。
- 负责代码生成、内容创作、规划决策、工具调用等高要求场景的架构师。
- 准备 AI Infra 相关面试的候选人。
学习目标
阅读完本主题后,你应该能够:
- 解释为什么单轮 LLM 和 ReAct 仍然需要独立的 Reflection 机制。
- 说明 Reflection 的核心思想:生成、批判、评估、修订的闭环。
- 区分内部反馈与外部反馈、行动反思与计划反思、个体反思与群体反思。
- 画出 Agent Reflection 的分层架构,并说明与 Generator、Critic、Evaluator、Revision Controller 的关系。
- 描述 Reflection Loop 的完整状态流转与终止条件。
- 对比 Self-Refine、Reflexion、CRITIC、Tree of Thoughts、LangGraph Reflection、AutoGen Reflection、OpenAI o1 的设计取舍。
- 知道如何为自己的 Agent 选择 Critic 模型、评分标准、终止策略与人工兜底方案。
- 理解 Mini Demo 的设计与运行方式,能在本地复现“生成—批判—修订”过程。
- 回答关于 Reflection 与 ReAct 区别、Critic 设计、避免无限循环、与 Memory 集成等面试问题。
Agent Reflection 与其他主题的关系
| 主题 | 解决的核心问题 | 与 Agent Reflection 的关系 |
|---|---|---|
| Agent Runtime | 如何安全、可观测地执行 Agent 任务 | Runtime 提供 ReAct 循环与工具执行环境,Reflection 在此基础上叠加“生成—批判—修订”闭环 |
| Agent Memory | 如何保留并利用上下文与经验 | Reflection 产生的 critique、score、revision 可以写入 Memory,形成可复用的经验教训 |
| Agent Reflection | 如何让 Agent 主动发现并修正自身错误 | 承上启下,把“即时生成”转化为“迭代优化” |
| Multi-Agent | 多 Agent 如何分工协作 | 群体反思(Group Reflection)依赖 Multi-Agent 的通信与协调机制 |
| Planning | 如何分解与重规划任务 | Plan Reflection 在规划层面做批判与重规划,是 Reflection 与 Planning 的交汇点 |
| Tool Use | 工具调用与执行 | Tool-use Reflection 专门反思工具选择、参数填充与调用结果 |
| MCP | 工具发现与调用协议 | Reflection 可以调用外部验证工具(如编译器、单元测试、检索)获取客观反馈;MCP 提供标准化工具发现 |
| Tool Use(后续主题) | Agent 如何使用外部工具 | Tool-use Reflection 专门反思工具选择、参数填充与调用结果 |
上表可以概括为一句话:Agent Runtime 决定“怎么执行”,Memory 决定“记住什么”,Reflection 决定“怎么发现错误并改得更好”。
本章结构
- 背景 — 单轮 LLM 与 ReAct 的局限、人类元认知启发、Reflection 演进阶段、典型场景。
- 核心思想 — 生成 + 批判 + 评估 + 修订、内部/外部反馈、行动/计划反思、个体/群体反思、与 Memory 集成。
- 架构设计 — Generator / Critic / Evaluator / Revision Controller / Workspace / Reflection Memory / Policy / Observer / Human Gate。
- 反思循环 — generate → critique → score → revise → terminate,状态与序列图、终止条件、护栏、HITL。
- 核心模块 — 各模块职责、输入输出、关键接口、生产注意事项。
- 源码分析 — Self-Refine、Reflexion、CRITIC、Tree of Thoughts、LangGraph Reflection、AutoGen Reflection、OpenAI o1 / reasoning models。
- 工程实践 — 纯 Python Mini Demo 设计与运行说明。
- 企业生产实践 — 何时启用 Reflection、Critic 模型选择、评分校准、在线/离线反思、与 Runtime/Memory 集成、评测基准。
- 最佳实践 — criteria-first、聚焦 Critic、避免无限循环、人工兜底、持久化反思结果、策略版本管理。
- 面试题 — 初级/中级/高级面试题。
- 延伸阅读 — 官方文档、论文、工程文章、相关主题、学习路径。
一句话总结
Agent Reflection 不是让 LLM 多生成几轮,而是让 Agent 在生成后主动批判自身输出、量化质量、定向修订,并把反思过程与结果沉淀为可复用的经验,从而在代码、写作、规划、工具使用等复杂任务中持续逼近正确解。
本章小结
Agent Reflection 是 Agent 基础设施中负责“自我纠错”的一层:它向上为 Agent Runtime 提供生成—批判—评估—修订的闭环能力,向下依赖 Memory 保存反思经验、依赖 Multi-Agent 实现群体反思、依赖外部工具获取客观反馈。它与 Runtime、Memory、Planning、Multi-Agent、Tool Use、MCP 都有清晰边界,核心目标是让 Agent 从“一次性回答”进化为“迭代优化”。
参考来源
- Self-Refine: Iterative Refinement with Self-Feedback
- Reflexion: Self-Reflective Agents with Verbal Reinforcement Learning
- CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- LangGraph Reflection Tutorial
- AutoGen Reflection
- OpenAI o1 / Reasoning Models
- LangGraph Blog — Reflection Agents