AI总乱编？我用Anthropic的笨方法治好了它

发布时间：2026-06-19 14:29阅读：25

这篇文章我想从一个很普遍的现象切入。

你肯定有过这样的体验：让 AI 帮你总结一份长文档，它写得头头是道，引用了各种「原文观点」，但你翻回去核对时，发现有好几处根本对不上号。

那一刻你会怀疑，是我看漏了，还是它在瞎编？

大概率是后者。

这就是所谓的「幻觉」。模型错得太自信，没有「我不确定」，没有「这里可能需要再确认」，而是一本正经地编造了你没见过的内容。

以前我觉得这只是模型不够强，多换几个 prompt 就能解决。但最近看了 Anthropic 官方关于减少幻觉的最佳实践，我才意识到，问题不在模型，而在我们怎么跟它协作。

或者说，问题不在 AI，而在系统。

我们总希望 AI 给出一个确定的答案。

但真相是，很多时候它真的不知道。或者更准确地说，它手里的信息不足以支撑一个确定的结论。

Anthropic 给的第一个建议很简单：明确告诉 Claude，你可以说「我不知道」。

听起来很废话对吧？

但你回想一下，你平时的 prompt 是不是充满了「请详细分析」「请给出专业建议」「请确保准确」这种要求？这些词潜台词是：你必须给我一个答案，而且这个答案要看起来很厉害。

这就把模型逼到了一个角落。它宁愿编一个看起来合理的答案，也不愿承认自己没把握。

现在我改了一个习惯。

在所有涉及事实判断、数据分析、文档解读的任务里，我都会加上一句：

「如果你对任何方面不确定，或者材料缺少必要信息，请直接说『我没有足够的信息来自信地评估这一点』。」

效果立竿见影。

它开始频繁地停下来，告诉我「这部分报告里没有提到具体的数据」「这段描述不够清晰，无法判断是否符合 xxx 第 XX 条」。

一开始我觉得这挺扫兴的，我要的是答案，不是一堆「不知道」。

但后来我发现，这些「不知道」恰恰是最有价值的部分。它帮我把模糊地带标出来了，让我知道哪些地方需要人工介入，哪些地方需要补充材料。

这才是真正的协作。

处理长文档时，幻觉最容易出现在哪里？

出现在模型「凭印象」回答问题的时候。

当文档超过几千字，模型不可能记住每一个细节。它只能凭借模糊的印象来生成回答。而这个过程中，细节很容易丢失、扭曲，甚至被替换成它「觉得应该如此」的内容。

Anthropic 给了一个很笨但很有效的办法：

让 Claude 在执行任务之前，先逐字提取相关引文。

比如你要让它审查一份隐私政策是否符合 GDPR（通用数据保护条例）。不要直接问「这份政策合规吗？」

而是分两步走：

第一步，让它从政策中提取与 GDPR 合规性最相关的确切引文。如果找不到，就说「未找到相关引文」。

第二步，让它基于这些引文进行分析，并且必须通过编号引用这些引文。分析只能基于所提取的引文，不能引入外部知识。

这个流程看起来很繁琐，但它解决了一个核心问题：

把模型的「记忆依赖」变成了「证据依赖」。

我以前做文献调研时也踩过这个坑。让 AI 总结一篇论文的核心贡献，它经常会把作者没说的结论安上去，或者把实验条件搞混。

现在我学乖了。

我先让它把论文里关于「核心贡献」「实验设计」「局限性」的段落原封不动摘出来。然后再让它基于这些摘录写总结。

虽然多了一步，但准确率提升巨大。而且因为每一步都有原文对照，我可以快速验证它的推理是否靠谱。

如果说「先摘录再分析」是针对单次任务的技巧，那「引用验证」就是一个更系统的思路。

它的核心逻辑是：

让模型为自己的每项主张提供