标签

AI总乱编?我用Anthropic的笨方法治好了它

发布时间:2026-06-19 14:29阅读:1

这篇文章我想从一个很普遍的现象切入。

你肯定有过这样的体验:让 AI 帮你总结一份长文档,它写得头头是道,引用了各种「原文观点」,但你翻回去核对时,发现有好几处根本对不上号。

那一刻你会怀疑,是我看漏了,还是它在瞎编?

大概率是后者。

这就是所谓的「幻觉」。模型错得太自信,没有「我不确定」,没有「这里可能需要再确认」,而是一本正经地编造了你没见过的内容。

以前我觉得这只是模型不够强,多换几个 prompt 就能解决。但最近看了 Anthropic 官方关于减少幻觉的最佳实践,我才意识到,问题不在模型,而在我们怎么跟它协作。

或者说,问题不在 AI,而在系统。

我们总希望 AI 给出一个确定的答案。

但真相是,很多时候它真的不知道。或者更准确地说,它手里的信息不足以支撑一个确定的结论。

Anthropic 给的第一个建议很简单:明确告诉 Claude,你可以说「我不知道」。

听起来很废话对吧?

但你回想一下,你平时的 prompt 是不是充满了「请详细分析」「请给出专业建议」「请确保准确」这种要求?这些词潜台词是:你必须给我一个答案,而且这个答案要看起来很厉害。

这就把模型逼到了一个角落。它宁愿编一个看起来合理的答案,也不愿承认自己没把握。

现在我改了一个习惯。

在所有涉及事实判断、数据分析、文档解读的任务里,我都会加上一句:

「如果你对任何方面不确定,或者材料缺少必要信息,请直接说『我没有足够的信息来自信地评估这一点』。」

效果立竿见影。

它开始频繁地停下来,告诉我「这部分报告里没有提到具体的数据」「这段描述不够清晰,无法判断是否符合 xxx 第 XX 条」。

一开始我觉得这挺扫兴的,我要的是答案,不是一堆「不知道」。

但后来我发现,这些「不知道」恰恰是最有价值的部分。它帮我把模糊地带标出来了,让我知道哪些地方需要人工介入,哪些地方需要补充材料。

这才是真正的协作。

处理长文档时,幻觉最容易出现在哪里?

出现在模型「凭印象」回答问题的时候。

当文档超过几千字,模型不可能记住每一个细节。它只能凭借模糊的印象来生成回答。而这个过程中,细节很容易丢失、扭曲,甚至被替换成它「觉得应该如此」的内容。

Anthropic 给了一个很笨但很有效的办法:

让 Claude 在执行任务之前,先逐字提取相关引文。

比如你要让它审查一份隐私政策是否符合 GDPR(通用数据保护条例)。不要直接问「这份政策合规吗?」

而是分两步走:

第一步,让它从政策中提取与 GDPR 合规性最相关的确切引文。如果找不到,就说「未找到相关引文」。

第二步,让它基于这些引文进行分析,并且必须通过编号引用这些引文。分析只能基于所提取的引文,不能引入外部知识。

这个流程看起来很繁琐,但它解决了一个核心问题:

把模型的「记忆依赖」变成了「证据依赖」。

我以前做文献调研时也踩过这个坑。让 AI 总结一篇论文的核心贡献,它经常会把作者没说的结论安上去,或者把实验条件搞混。

现在我学乖了。

我先让它把论文里关于「核心贡献」「实验设计」「局限性」的段落原封不动摘出来。然后再让它基于这些摘录写总结。

虽然多了一步,但准确率提升巨大。而且因为每一步都有原文对照,我可以快速验证它的推理是否靠谱。

如果说「先摘录再分析」是针对单次任务的技巧,那「引用验证」就是一个更系统的思路。

它的核心逻辑是:

让模型为自己的每项主张提供