PAPERTree of Thoughts推理搜索Agent线上系统
论文解读:Tree of Thoughts 真的适合线上吗?价值与边界
Tree of Thoughts(ToT)通过“多路径搜索+评估”提升复杂推理上限,但线上系统并不总能承受其代价。本文从生产视角拆解 ToT:搜索树宽度/深度如何影响时延与成本、评估器如何决定成败、哪些任务值得上 ToT,并给出可执行的在线裁剪策略。
2026年3月6日
Synthly 团队
预计阅读 15 分钟

📷 Photo by Brett Sayles via Pexels
一、ToT 的吸引力:它让模型“会试错”
ToT 被关注的原因很直接:
- 单路径推理容易走偏后一路错到底
- ToT 允许并行探索多个候选路径并择优
这在复杂任务里确实有效,尤其当“第一反应”并不可靠时。
但线上系统不只看正确率,还看:
- p95 时延
- 单请求成本
- 资源波动
所以问题从“ToT 强不强”变成“ToT 值不值”。
二、ToT 的成本结构:宽度、深度、评估器
ToT 成本主要由三件事决定:
- 树宽(branching factor):每层扩展多少分支
- 树深(depth):探索多少层
- 评估器(evaluator):如何比较分支质量
近似理解:总成本与 $宽度 \times 深度$ 成正相关,还要叠加评估开销。
如果评估器本身也调用模型,成本会二次放大。
三、线上挑战:不是算法问题,而是系统预算问题
ToT 在线上常见三类问题:
- 延迟失控:分支过多导致尾延迟陡升
- 成本抖动:复杂样本触发深搜索,单请求成本飙高
- 可解释性不足:最终答案可见,但被剪掉路径不可追溯
要解决这些问题,不能只调 prompt,要在系统层加入预算治理。
四、可执行策略:把 ToT 当“升级路径”,不是默认路径
推荐分层策略:
- 先走轻量单路径(CoT/结构化步骤)
- 当置信度低或冲突高时,升级到 ToT
- 若预算耗尽,回退到可解释的近似解
这是一种“按需搜索”策略,能让 ToT 用在刀刃上。
关键控制项:
- 最大分支数
- 最大深度
- 最大 token 预算
- 最大执行时间
任何一项触顶都要触发早停或回退。
五、评估器设计:ToT 成败的隐藏变量
很多落地失败不是搜索不够,而是评估器不稳定。
评估器至少要满足:
- 指标可解释(正确性、可行性、约束满足度)
- 与业务目标一致
- 对噪声不敏感
常见做法:
- 规则评估(硬约束)
- 模型评估(软约束)
- 混合评估(先硬后软)
如果没有稳定评估器,ToT 可能只是“更贵的随机搜索”。
六、什么时候不该上 ToT
以下场景通常不建议默认 ToT:
- 高频实时交互
- 低价值短问题
- 已有稳定规则解的任务
这些场景里,ToT 的边际收益往往低于其额外成本。
七、结论:ToT 适合“高价值复杂任务”,不适合“全量默认”
ToT 的价值是真实的,但必须被预算框架约束。
在生产中更推荐:
- 基线策略覆盖大多数请求
- ToT 作为升级路径处理高难请求
配套阅读: