Replanning 是不是等于“再让模型想一遍”？

不是。工程上的 replanning 必须以“已发生的事实”为约束：哪些动作已执行、哪些副作用不可逆、哪些资源已被占用。它更像“带约束的修补”，而不是从零生成一份新计划。

什么时候应该停止重规划，转为人工或追问？

当失败涉及权限、成本或风险不可控（例如反复触发支付/外发、数据破坏性操作），或者关键输入缺失无法验证时，应停止自动重试，改为向用户追问或走人工审批。

如何避免重规划导致的重复执行与重试风暴？

三件事：幂等键（写操作必须可去重）、检查点（明确已完成的可复用产物）、重试预算（按阶段/按工具设置次数与时间上限），并把每次重试原因落到事件日志里。

重规划会不会让延迟变得不可接受？

会，所以要分层：优先做“局部修补”（local repair）而不是全量重算；在 p95 目标内设置超时预算；必要时做“先给用户部分结果 + 后台继续”或降级策略。

AgentReplanning可靠性状态机工程实践

任务拆解错了怎么救：Agent 动态重规划（Replanning）工程策略

Agent 真正的可靠性，不是“一次规划就做对”，而是“做错了还能自救”。本文用工程视角拆解重规划：如何检测计划失效、如何最小代价修补、如何避免重试风暴与重复执行，并给出可落地的事件日志、状态机与回滚/补偿设计。

2026年3月4日

Synthly 团队

预计阅读 14 分钟

📷 Photo by RDNE Stock project via Pexels

先说结论：能上线的 Agent 必须“允许自己犯错”

很多团队把 Agent 的失败当成“模型不够聪明”。但在真实系统里，更常见的失败原因是：

计划依赖了不存在的前提（用户权限、数据字段、工具可用性）
执行中出现了新信息（工具返回与预期不同、数据被并发修改）
副作用不可逆（邮件已发、工单已创建、库存已扣）

所以“动态重规划”不是可选项，而是可靠性的核心。

如果你还没读过 Agent 的最小工程基线，建议先看：

一、先把概念工程化：重规划的输入不是 Prompt，而是“事实”

在工程语境里，重规划至少要拿到这三类输入：

已发生的事实（Facts）

已执行的动作（tool call）及其回执
产生的外部实体（邮件 id、工单 id、文件 url）
资源状态（余额、配额、锁）

约束（Constraints）

不可逆操作的禁止重复
合规/权限边界（scope）
成本/时延预算（token、工具调用次数、端到端 p95）

目标（Goal）

用户目标（可能被澄清/变更）
验收条件（输出合同/格式约束）

这意味着：你做 replanning 的核心数据结构不是一段对话，而是一个可追溯执行记录。

二、失败检测：什么时候判定“计划坏了”？

不要把“工具报错”才当失败。更可靠的做法是把失败分成 4 类触发器（Trigger），每类都有可观测信号。

1）工具失败（Tool Failure）

典型信号：

超时、429、5xx
返回空/字段缺失
业务拒绝（权限不足、配额不足）

处理原则：

可恢复错误（超时/429）：有限重试 + 退避 + 预算
不可恢复错误（权限/配额）：立即停止，转为追问/提示升级权限

2）不变量被打破（Invariant Violation）

例子：你要求“创建工单后必须拿到 ticketId”，但工具返回没有。

这类失败不能盲重试，必须：

记录“违反了哪个不变量”
进入修补分支（补字段、换工具、变更流程）

3）进度停滞（No Progress / Stuck）

最隐蔽，也最常见：Agent 不断解释、不断尝试，但系统状态没有变化。

可操作判定：

连续 N 次动作没有新增事实（facts）
端到端耗时超过阶段预算（例如规划 5s、执行 60s）

4）结果校验失败（Output Contract Failed）

你应该把输出校验当作“执行的一部分”：

JSON schema 校验
必填字段校验
枚举值/范围校验
关键事实引用校验（例如必须引用工具回执里的金额/日期）

校验失败后再 replanning，质量会稳定很多。

三、重规划策略谱系：从“局部修补”到“全量重算”

重规划不是只有一种做法。建议按代价从低到高分 4 档，优先走低代价。

1）局部修补（Local Repair）：只修坏掉的一步

适用：

某一步参数错、字段缺失
工具小概率失败

做法：

保留既有计划与已完成步骤
仅替换失败节点（比如换一个工具、补一个参数）

关键：必须能定位“失败节点”。所以你需要把计划结构化（例如步骤列表/DAG）。

2）回退到检查点（Checkpoint Rollback）：从最近可确认状态继续

适用：

中间步骤产生了不确定状态
并发导致状态被修改

做法：

定义可持久化检查点：完成到哪一步、产物是什么
从检查点重新执行后续步骤（注意幂等与补偿）

3）替代路径（Plan B / Fallback）：换流程而非换参数

适用：

工具不可用或不稳定
数据源缺失

例子：

CRM 查不到 → 改为让用户上传 CSV
邮件接口超时 → 改为生成草稿给用户确认

4）全量重算（Full Replan）：重新生成一份新计划

适用：

目标变化
上下文/事实变化太大，局部修补会越来越脏

注意：全量重算不是“忘掉过去”。它必须把“已发生事实”作为硬约束输入，否则会重复执行写操作。

四、一个可落地的 Replanning 循环（含状态机 + 事件日志）

建议把 Agent 执行抽象成一个“可重入”的循环：

生成/更新计划（plan）
执行一步（act）
写入事件（event）
校验与判定（verify + decide）
需要时重规划（replan）

1）最小状态机

PLANNING：生成计划
RUNNING：执行计划步骤
WAITING_INPUT：向用户追问
WAITING_TOOL：等待异步工具
REPLANNING：基于事实修补计划
DONE / FAILED

关键不是状态名称，而是：状态必须持久化，否则断线/重启就无法安全重入。

2）事件日志的最小结构

建议每条事件都能回答“发生了什么”以及“为何发生”。例如：

{
  "taskId": "t_123",
  "planVersion": 3,
  "stepId": "send_email",
  "eventType": "TOOL_CALL",
  "tool": "gmail.send",
  "idempotencyKey": "t_123:send_email:v3",
  "inputHash": "...",
  "startedAt": "...",
  "durationMs": 842,
  "result": { "success": false, "error": { "type": "429" } },
  "decision": { "next": "RETRY", "backoffMs": 2000 }
}