返回文章列表
LLMHallucination风险治理证据引用评测

幻觉治理框架:拒答、追问、证据引用三件套,如何系统化落地

幻觉治理不该只靠“调低温度”或“加一句别乱编”。本文提出一套可落地的三层框架:先识别高风险不确定性,再在拒答、追问、证据引用三条路径中做策略分流,并用离线评测与线上指标验证治理是否真的降低错误自信回答。

2026年3月7日
Synthly 团队
预计阅读 15 分钟
幻觉治理流程图:风险识别后分流到拒答、追问与证据引用三条路径

📷 Photo by Yan Krukau via Pexels

一、幻觉治理的核心矛盾:不能只追求“少错”,还要兼顾“可用”

很多团队一谈幻觉治理,第一反应是:

  • 让模型别回答

这在高风险领域有必要,但如果把所有不确定都变成拒答,系统很快会失去可用性。真实产品面临的是三重目标:

  • 减少错误自信
  • 保持任务完成率
  • 让用户理解为什么这样答

因此,治理框架不能是单点策略,而必须是分流机制。


二、三件套框架:拒答、追问、证据引用

1)拒答:用于高风险且证据不足场景

适用条件:

  • 医疗、法律、财务等高风险建议
  • 没有可验证证据
  • 输出一旦错误,代价明显高于一次拒答

拒答不是简单说“我不知道”,而应包含:

  • 为什么不能答
  • 缺了什么信息
  • 建议的下一步动作

2)追问:用于信息不足但可补齐场景

适用条件:

  • 用户目标模糊
  • 关键约束缺失
  • 存在多个合理解释

追问的关键不是“多问”,而是只问最小必要信息,减少交互摩擦。

3)证据引用:用于可检索、可验证场景

适用条件:

  • 依赖知识库/文档/数据库回答
  • 用户需要判断答案依据
  • 任务允许引用或跳转到原始来源

证据引用不是装饰,而是可解释性的基础设施。


三、风险识别:先分级,再选策略

治理框架的前置条件是风险识别。建议至少考虑三类信号:

  1. 任务风险:场景本身错误成本高不高
  2. 证据风险:是否有可靠来源支撑
  3. 模型风险:是否出现低置信度、检索冲突、结构化失败

然后把请求分成:

  • 低风险:直接答 + 证据可选
  • 中风险:证据必带或必要时追问
  • 高风险:优先拒答或转人工

这种分级让治理不再是“全局一刀切”。


四、实现建议:把治理逻辑做成显式状态机

一个最小可用状态机可以是:

  • ASSESS_RISK
  • REFUSE
  • CLARIFY
  • ANSWER_WITH_CITATIONS
  • ESCALATE

这样做有三个好处:

  • 便于观测每条路径的命中率
  • 便于灰度切换策略
  • 便于回放错误样本

如果把这些逻辑埋在 prompt 里,后期几乎无法稳定优化。


五、评测框架:看“少错”也看“少废话”

建议至少跟踪以下指标:

  • confident_error_rate
  • refusal_rate
  • clarification_trigger_rate
  • citation_coverage_rate
  • task_completion_rate

一个常见误区是:拒答率上升就以为治理成功。事实上,若任务完成率显著下降,说明系统在用“保守”掩盖“无能”。


六、线上策略:先治理高风险链路,再覆盖长尾

建议灰度顺序:

  1. 先在高风险场景开启拒答/引用策略
  2. 再在中风险场景引入追问
  3. 最后根据评测结果动态优化阈值

不要一开始就全量上复杂治理逻辑,否则很难分辨到底是哪一层在提升或伤害系统。


七、结论:真正的幻觉治理,不是让模型“少说话”,而是让系统“更会分流”

拒答、追问、证据引用不是三种孤立技巧,而是同一治理框架的不同出口。

当系统能根据风险与证据质量自动分流时,幻觉治理才真正从 prompt 技巧升级为产品能力。