人工智能最大的缺陷并非愚笨，而是“盲目自信”

发布时间：2026-06-03 15:34阅读：13

你一定经历过这样的场景：向AI提出疑问，它瞬间给出答案，口吻坚定得仿佛在背诵真理。你暗自思忖，既然这么胸有成竹，那必然准确无误。于是你按照它的建议去做了，或是将其分享出去，甚至直接引用到了工作总结中。

随后你才恍然大悟，它全都是瞎编的。

这并非那种"差不多正确"的偏差，而是那种表面上极具专业度、逻辑严密，甚至连参考文献都为你伪造好的谬误。当你折返回去质问它时，它依然表现得理直气壮——因为它压根就意识不到自己犯了错。

人工智能最核心的软肋绝非智商不够。不够聪明你可以去弥补、去训练，或者换用更高级的算法。真正的麻烦在于：当它给出错误结论时，其外在表现与正确时毫无二致。甚至，它在犯错时会显得愈发笃定。

麻省理工学院在2025年开展的一项测试得出了令人大跌眼镜的结论：当AI在进行虚构时，相较于陈述客观事实，它会使用更多诸如"绝对"、"毫无疑问"、"可以确信"之类的词汇。数据显示，在出错时它使用这类自信措辞的几率上升了34%。

34%。仔细琢磨一下这个比例吧。

换言之，你根本无法凭借AI的口吻来辨别其内容的真伪。越是它没把握的事情，表述起来越是斩钉截铁。而越是确凿的答案，反倒可能显得更为谦逊。

这与人类的反应截然相反。假如一个人心中没底，你多少能从他的语气中察觉出端倪——迟疑、模糊、附加各种前提条件。然而AI并不具备这种反馈机制。它的表达方式与回答的质量之间是完全断裂的。你坐在屏幕前，阅读着一段条理清晰、论据充分的文本，根本无从分辨这到底是真才实学还是煞有介事的满嘴跑火车。

学术界专门用"自信悖论"来形容这一现象——错得越是荒谬，态度越是坚决。

回想一下你最近一次被AI"忽悠"的往事。难道不正是因为它显得过于胸有成竹，你才会轻信的吗？

你或许会认为：既然幻觉如此棘手，把它修复好不就行了？

根本修不好。

2025年有两篇互不相干的数学论证得出了一个共同的推论：在现有的底层架构中，幻觉并非系统漏洞，而是结构上的宿命。这就好比人类无法摆脱困倦感——你可以灌咖啡、定闹钟，但你无法从根源上抹除疲惫。AI亦是如此，你可以借助检索增强生成（RAG）、人工校验以及各类策略来压低幻觉出现的频率，但你绝无可能让它彻底杜绝幻觉。

追根溯源其实非常直白：大语言模型并非在进行"资料检索"，而是在"推测下一个词汇"。它依托于训练库中的统计学法则，拼凑出最有可能衔接的语句。它不懂得何为"真相"，它仅仅明白何为"像真相"。假若某个议题的训练素材十分丰富，其回答大概率是准确的；可一旦训练素材匮乏或是存在矛盾，它便会依据概率分布"捏造"一个貌似合情合理的解答——而在进行这种"捏造"时，它自身是毫无知觉的。

在处理简易任务时，产生幻觉的概率确实微乎其微。参考Vectara的榜单数据，头部模型在执行文章提炼任务时的幻觉发生率仅为0.7%至3%。然而若更换应用场景呢？在面临复杂的逻辑推演任务时，幻觉概率便猛增至30%以上。而在法学界，即便是专门针对法律业务定制的AI产品，其幻觉率依然高达17%至33%。这意味着，你向它咨询三个法律疑问，或许就有一个答案是凭空捏造的。

同一个模型，基础摘要0.7%，深度推理30%——这并非意味着模型智力衰退了，而是由于挑战升级了。任务越是艰巨，AI就愈倾向于"不懂装懂"。

你也许会觉得，AI虚构个结果而已，顶多就是不太靠谱罢了。但现实生活早已多次给我们敲响了警钟。

医疗问诊方面的隐患则更为骇人。《英国医学杂志开放版》在2026年公布了一份调研，对当下热门AI模型的医学解答进行了测评——其中约50%被判定为"存在瑕疵"，将近20%更是被归入"严重缺陷"之列。你若是遵循AI提供的养生指南来调整作息，有一半的方案或许是无效的。这早已超越了"仅供参考"的红线，达到了"足以误事"的危险境地。

学术圈同样未能幸免。在ICLR 2026年的收稿中，有学者随机抽查了300份稿件，察觉出有50篇包含了极其恶劣的AI幻觉痕迹——虚构参考书目、捏造学者署名、篡改测试数据。并且这些由AI杜撰的内容，排版标准，引注完备，若不查阅原始文献根本无法识破。

AI"不懂装懂"最可怕的负面效应并非在于它给出了谬误，而是在于它犯错时的神态与正确时如出一辙。你以往由于轻信而尝到了多少甜头，就会在它出错的那一次跌得有多惨。

你是否思考过一个更为深刻的缘由——为何AI从来都不肯主动坦白"我不了解"呢？

OpenAI联合佐治亚理工学院的科研小组进行了一项调研：在目前盛行的10项AI考核标准中，有9项都不会因为回答"我不清楚"而给予任何积分。你若坦言不知，那就是不及格。你若去瞎猜一个，猜中了便能拿满分，猜错了也绝不比零分更糟。

这岂不正是我们学生时代最为厌恶的那种评分机制吗？交白卷必然被扣分，胡乱蒙一个没准还能侥幸命中。

AI正是在这种"考核体系"之下被培育成型的。它被不断地灌输一种理念：宁可去瞎蒙，也绝不能承认无知。纵然只有51%的胜算，去猜也比坦白"我没有把握"能拿到更高的分数。日积月累之下，AI被塑造成了一位极度擅长"盲猜"的答题达人，而非一位会老实承认"此事我尚存疑虑"的诚恳解答者。

更为残酷的真相是——有专家指出，假若当真让AI完全摒弃信口开河的习惯，一遇到难题就抛出一句"我不清楚"，你还会每天都去使用它吗？在商业逻辑里，"有求必应"远比"诚实却乏味"更具市场号召力。于是便形成了一个无奈的死循环：大众偏爱自信满满的AI，AI便被调教得愈发自信，而这种自信又使得其产生的幻觉愈发难以被察觉。

尽管幻觉无法根除，但你完全能够尽量避免掉入陷阱。以下是我个人总结的几条避坑指南：

▸ 核心论据务必核实。AI所提供的数字、出处、人物、时间——尤其是那些你准备录入官方报告或发送给客户的细节——必须要亲自去检索一番。哪怕仅仅是在搜索引擎里花上30秒钟进行核对。这短短的30秒，足以让你免于日后长达3个小时的返工折磨。

▸ AI越是笃定，你越需防范。前文提过，它在犯错时往往比正确时更加自负。倘若你察觉到某段AI回复写得异常坚决、极度流畅、未显露丝毫迟疑，反倒应该提高警惕。真正经得起推敲的解答通常都会附带前提条件，而非一味地妄下断语。

▸ 交叉验证答案。将同样的疑问，分别抛给两款不同的AI，比对一下双方的回复。若是两款AI给出的核心要点相吻合，那基本可以放心；可若是出现了意见相左的情况，那就必须谨慎对待了——铁定有一方是在胡诌。

▸ 提问务必精准。切勿泛泛而问"某某规定有哪些"，应当询问"某某规定在2026年1月1日生效后的具体细则包含哪些，其法定依据是哪份公文"。问题限制得越死，AI自由发挥的余地就越小，其虚构内容的空间也就随之压缩。

就在昨夜，你再次向AI抛出了一个疑问。它照旧秒回了内容，不仅逻辑缜密，层次分明，甚至还贴心地为你归纳出了三段总结。

你不由得迟疑了片刻——这一回它给出的结论属实吗？

你凝视着显示屏沉思了片刻，终究还是按下了复制键。

因为你自己也不清楚该去何处求证。而它那副模样，看起来确实像极了掌握真理的化身。

← 上一篇：明略科技姜平的AI Native转型之路：1500人规模的人机协同实践下一篇：AI时代资本与创新融合：北大汇丰全球创新创业大赛深圳赛区圆满落幕 →