LLMHallucination风险治理证据引用评测
幻觉治理框架:拒答、追问、证据引用三件套,如何系统化落地
幻觉治理不该只靠“调低温度”或“加一句别乱编”。本文提出一套可落地的三层框架:先识别高风险不确定性,再在拒答、追问、证据引用三条路径中做策略分流,并用离线评测与线上指标验证治理是否真的降低错误自信回答。
2026年3月7日
Synthly 团队
预计阅读 15 分钟

📷 Photo by Yan Krukau via Pexels
一、幻觉治理的核心矛盾:不能只追求“少错”,还要兼顾“可用”
很多团队一谈幻觉治理,第一反应是:
- 让模型别回答
这在高风险领域有必要,但如果把所有不确定都变成拒答,系统很快会失去可用性。真实产品面临的是三重目标:
- 减少错误自信
- 保持任务完成率
- 让用户理解为什么这样答
因此,治理框架不能是单点策略,而必须是分流机制。
二、三件套框架:拒答、追问、证据引用
1)拒答:用于高风险且证据不足场景
适用条件:
- 医疗、法律、财务等高风险建议
- 没有可验证证据
- 输出一旦错误,代价明显高于一次拒答
拒答不是简单说“我不知道”,而应包含:
- 为什么不能答
- 缺了什么信息
- 建议的下一步动作
2)追问:用于信息不足但可补齐场景
适用条件:
- 用户目标模糊
- 关键约束缺失
- 存在多个合理解释
追问的关键不是“多问”,而是只问最小必要信息,减少交互摩擦。
3)证据引用:用于可检索、可验证场景
适用条件:
- 依赖知识库/文档/数据库回答
- 用户需要判断答案依据
- 任务允许引用或跳转到原始来源
证据引用不是装饰,而是可解释性的基础设施。
三、风险识别:先分级,再选策略
治理框架的前置条件是风险识别。建议至少考虑三类信号:
- 任务风险:场景本身错误成本高不高
- 证据风险:是否有可靠来源支撑
- 模型风险:是否出现低置信度、检索冲突、结构化失败
然后把请求分成:
- 低风险:直接答 + 证据可选
- 中风险:证据必带或必要时追问
- 高风险:优先拒答或转人工
这种分级让治理不再是“全局一刀切”。
四、实现建议:把治理逻辑做成显式状态机
一个最小可用状态机可以是:
ASSESS_RISKREFUSECLARIFYANSWER_WITH_CITATIONSESCALATE
这样做有三个好处:
- 便于观测每条路径的命中率
- 便于灰度切换策略
- 便于回放错误样本
如果把这些逻辑埋在 prompt 里,后期几乎无法稳定优化。
五、评测框架:看“少错”也看“少废话”
建议至少跟踪以下指标:
confident_error_raterefusal_rateclarification_trigger_ratecitation_coverage_ratetask_completion_rate
一个常见误区是:拒答率上升就以为治理成功。事实上,若任务完成率显著下降,说明系统在用“保守”掩盖“无能”。
六、线上策略:先治理高风险链路,再覆盖长尾
建议灰度顺序:
- 先在高风险场景开启拒答/引用策略
- 再在中风险场景引入追问
- 最后根据评测结果动态优化阈值
不要一开始就全量上复杂治理逻辑,否则很难分辨到底是哪一层在提升或伤害系统。
七、结论:真正的幻觉治理,不是让模型“少说话”,而是让系统“更会分流”
拒答、追问、证据引用不是三种孤立技巧,而是同一治理框架的不同出口。
当系统能根据风险与证据质量自动分流时,幻觉治理才真正从 prompt 技巧升级为产品能力。