返回文章列表
PAPERPlan-and-Solve任务规划推理Agent

论文解读:Plan-and-Solve 在任务规划上的贡献与工程边界

Plan-and-Solve(PnS)通过先规划再求解,显著降低了“边想边答”中的遗漏步骤问题。本文从论文核心机制出发,分析 PnS 在任务分解、错误类型控制和可解释性上的价值,并给出在线系统中的复现路径、指标体系与成本边界,帮助团队判断何时该用 PnS、何时该换更轻方案。

2026年3月6日
Synthly 团队
预计阅读 14 分钟
Plan-and-Solve 的两阶段流程图:先生成计划,再按计划求解与校验

📷 Photo by Mikhail Nilov via Pexels

一、PnS 的核心贡献:把“想清楚”从“做题过程”中拆出来

PnS 的价值不在于引入更复杂推理,而在于把控制结构做了显式化:

  • 阶段 1:生成计划(Plan)
  • 阶段 2:按计划求解(Solve)

这看起来简单,但在线上系统里意义很大。因为你终于可以分别观察:

  • 计划是否完整
  • 执行是否偏离

相比“一个大段推理文本”,这种分层更接近工程系统的可调试形态。


二、论文视角的价值:主要改善哪类错误

PnS 对以下错误类型改善最明显:

  1. 遗漏步骤:没做关键中间步骤导致终局错误
  2. 顺序错误:步骤次序颠倒导致依赖不成立
  3. 局部跳跃:中间推理过快,缺乏可验证过程

它对这类错误的改善机制很直接:先强制产出步骤骨架,再逐步填充答案。

但要注意,PnS 对“知识本身错误”不是万能药。如果事实来源不可靠,计划再完整也会错。


三、线上复现路径:别只复现 prompt,要复现评估协议

很多团队复现论文只关注模板,忽略评估协议,结果得不出稳定结论。

建议最小复现框架:

  • 对照组:Direct Answer / CoT
  • 实验组:PnS
  • 数据集:按任务复杂度分层(2步、4步、6步以上)
  • 指标:准确率、漏步骤率、平均 token、p95 延迟

再加一个高价值指标:

  • Plan Compliance Rate(求解是否遵循计划)

这个指标能直接反映 PnS 在你场景里是“真分层”还是“形式分层”。


四、工程化改造:把 PnS 从 prompt 变成状态机

建议把 PnS 落地为两个显式状态:

  • PLAN_GENERATED
  • PLAN_EXECUTING

并在执行阶段记录:

  • 当前 step index
  • step result
  • step error reason

当某一步失败时,你可以选择:

  • 局部重试
  • 局部重规划
  • 全局重规划

这比“整段重跑”更省成本,也更便于审计。


五、成本边界:什么时候 PnS 不划算

PnS 不划算的典型场景:

  • 请求非常短、答案一步可得
  • 高并发低时延场景(例如实时补全)
  • 计划质量难以稳定,反而引入额外噪音

可用经验法则:

  • 任务复杂度低于 2-3 步,优先轻量策略
  • 复杂度高、错误代价高,再启用 PnS

也可以走混合路由:先快速估计复杂度,再决定是否走 PnS。


六、与 Agent 体系的结合方式

在 Agent 系统中,PnS 最佳定位通常是:

  • 上游:做任务分解
  • 下游:交给执行器/工具层

这样可以与 Planner-Executor 架构天然对齐。

建议联动阅读:


七、结论:PnS 不是“更聪明”,而是“更可控”

PnS 的真正价值在于:

  • 把多步任务做成可观察、可拆解、可修复的流程

如果你的任务复杂度高、错误成本高,PnS 值得成为默认策略之一;如果任务简单且追求极致时延,轻量路径更实际。