背景

一句话理解：从 prompt engineering、CoT 到 ReAct，再到显式 Planning，Agent 的“思考方式”正在从一次性生成演变为可持久化、可回滚、可重规划的多步计划。

早期的大模型应用大多是“单轮问答”：用户给一段 prompt，模型直接输出答案。这种方式对开放域闲聊、摘要、翻译等任务有效，但对需要多步操作、依赖外部信息、目标模糊的长程任务则显得力不从心。Agent Planning 的出现，正是为了把“想到哪做到哪”升级为“先规划、再执行、边观察、边调整”。

单轮 prompt engineering 的局限

prompt engineering 的核心是“把任务写清楚”。通过角色设定、示例、格式要求、约束条件等，让模型一次性生成理想输出。

典型问题：

Chain-of-Thought（CoT）通过让模型生成中间推理步骤，显著提升了数学、逻辑、代码等任务的准确率。

text

Q: 一个农场有鸡和兔，头共 35 个，脚共 94 只，问鸡兔各多少？
A: 设鸡 x 只，兔 y 只。x + y = 35，2x + 4y = 94……

CoT 的本质是把“黑盒输出”变成“可解释的推理链”。但它仍然是单轮生成，模型一旦落笔就无法回头，也无法与外部环境交互。

ReAct（Reasoning + Acting）把 CoT 与工具调用结合起来，形成“思考 → 行动 → 观察 → 再思考”的交错循环。

ReAct 解决了“模型如何与外界交互”的问题，但它的计划是隐式的：每一步的“思考”只决定下一步行动，没有全局任务结构。对于长程复杂任务，这种局部决策容易导致：

显式 Planning 的核心思想是：在执行前，先把整个任务拆解成结构化的计划；执行过程中，计划可以被观测、被修改、被重规划。

这种范式下，计划成为 Agent 的一等公民（first-class artifact），具备以下能力：

这些任务的共同点是：无法通过单次模型调用完成，需要显式规划、多步执行、动态调整。

参考来源