标签

人工智能最大的缺陷并非愚笨,而是“盲目自信”

发布时间:2026-06-03 15:34来源:微信阅读:2

你一定经历过这样的场景:向AI提出疑问,它瞬间给出答案,口吻坚定得仿佛在背诵真理。你暗自思忖,既然这么胸有成竹,那必然准确无误。于是你按照它的建议去做了,或是将其分享出去,甚至直接引用到了工作总结中。

随后你才恍然大悟,它全都是瞎编的。

这并非那种"差不多正确"的偏差,而是那种表面上极具专业度、逻辑严密,甚至连参考文献都为你伪造好的谬误。当你折返回去质问它时,它依然表现得理直气壮——因为它压根就意识不到自己犯了错。

人工智能最核心的软肋绝非智商不够。不够聪明你可以去弥补、去训练,或者换用更高级的算法。真正的麻烦在于:当它给出错误结论时,其外在表现与正确时毫无二致。甚至,它在犯错时会显得愈发笃定。

麻省理工学院在2025年开展的一项测试得出了令人大跌眼镜的结论:当AI在进行虚构时,相较于陈述客观事实,它会使用更多诸如"绝对"、"毫无疑问"、"可以确信"之类的词汇。数据显示,在出错时它使用这类自信措辞的几率上升了34%。

34%。仔细琢磨一下这个比例吧。

换言之,你根本无法凭借AI的口吻来辨别其内容的真伪。越是它没把握的事情,表述起来越是斩钉截铁。而越是确凿的答案,反倒可能显得更为谦逊。

这与人类的反应截然相反。假如一个人心中没底,你多少能从他的语气中察觉出端倪——迟疑、模糊、附加各种前提条件。然而AI并不具备这种反馈机制。它的表达方式与回答的质量之间是完全断裂的。你坐在屏幕前,阅读着一段条理清晰、论据充分的文本,根本无从分辨这到底是真才实学还是煞有介事的满嘴跑火车。

学术界专门用"自信悖论"来形容这一现象——错得越是荒谬,态度越是坚决。

回想一下你最近一次被AI"忽悠"的往事。难道不正是因为它显得过于胸有成竹,你才会轻信的吗?

你或许会认为:既然幻觉如此棘手,把它修复好不就行了?

根本修不好。

2025年有两篇互不相干的数学论证得出了一个共同的推论:在现有的底层架构中,幻觉并非系统漏洞,而是结构上的宿命。这就好比人类无法摆脱困倦感——你可以灌咖啡、定闹钟,但你无法从根源上抹除疲惫。AI亦是如此,你可以借助检索增强生成(RAG)、人工校验以及各类策略来压低幻觉出现的频率,但你绝无可能让它彻底杜绝幻觉。

追根溯源其实非常直白:大语言模型并非在进行"资料检索",而是在"推测下一个词汇"。它依托于训练库中的统计学法则,拼凑出最有可能衔接的语句。它不懂得何为"真相",它仅仅明白何为"像真相"。假若某个议题的训练素材十分丰富,其回答大概率是准确的;可一旦训练素材匮乏或是存在矛盾,它便会依据概率分布"捏造"一个貌似合情合理的解答——而在进行这种"捏造"时,它自身是毫无知觉的。

在处理简易任务时,产生幻觉的概率确实微乎其微。参考Vectara的榜单数据,头部模型在执行文章提炼任务时的幻觉发生率仅为0.7%至3%。然而若更换应用场景呢?在面临复杂的逻辑推演任务时,幻觉概率便猛增至30%以上。而在法学界,即便是专门针对法律业务定制的AI产品,其幻觉率依然高达17%至33%。这意味着,你向它咨询三个法律疑问,或许就有一个答案是凭空捏造的。

同一个模型,基础摘要0.7%,深度推理30%——这并非意味着模型智力衰退了,而是由于挑战升级了。任务越是艰巨,AI就愈倾向于"不懂装懂"。

你也许会觉得,AI虚构个结果而已,顶多就是不太靠谱罢了。但现实生活早已多次给我们敲响了警钟。

医疗问诊方面的隐患则更为骇人。《英国医学杂志开放版》在2026年公布了一份调研,对当下热门AI模型的医学解答进行了测评——其中约50%被判定为"存在瑕疵",将近20%更是被归入"严重缺陷"之列。你若是遵循AI提供的养生指南来调整作息,有一半的方案或许是无效的。这早已超越了"仅供参考"的红线,达到了"足以误事"的危险境地。

学术圈同样未能幸免。在ICLR 2026年的收稿中,有学者随机抽查了300份稿件,察觉出有50篇包含了极其恶劣的AI幻觉痕迹——虚构参考书目、捏造学者署名、篡改测试数据。并且这些由AI杜撰的内容,排版标准,引注完备,若不查阅原始文献根本无法识破。

AI"不懂装懂"最可怕的负面效应并非在于它给出了谬误,而是在于它犯错时的神态与正确时如出一辙。你以往由于轻信而尝到了多少甜头,就会在它出错的那一次跌得有多惨。

你是否思考过一个更为深刻的缘由——为何AI从来都不肯主动坦白"我不了解"呢?

OpenAI联合佐治亚理工学院的科研小组进行了一项调研:在目前盛行的10项AI考核标准中,有9项都不会因为回答"我不清楚"而给予任何积分。你若坦言不知,那就是不及格。你若去瞎猜一个,猜中了便能拿满分,猜错了也绝不比零分更糟。

这岂不正是我们学生时代最为厌恶的那种评分机制吗?交白卷必然被扣分,胡乱蒙一个没准还能侥幸命中。

AI正是在这种"考核体系"之下被培育成型的。它被不断地灌输一种理念:宁可去瞎蒙,也绝不能承认无知。纵然只有51%的胜算,去猜也比坦白"我没有把握"能拿到更高的分数。日积月累之下,AI被塑造成了一位极度擅长"盲猜"的答题达人,而非一位会老实承认"此事我尚存疑虑"的诚恳解答者。

更为残酷的真相是——有专家指出,假若当真让AI完全摒弃信口开河的习惯,一遇到难题就抛出一句"我不清楚",你还会每天都去使用它吗?在商业逻辑里,"有求必应"远比"诚实却乏味"更具市场号召力。于是便形成了一个无奈的死循环:大众偏爱自信满满的AI,AI便被调教得愈发自信,而这种自信又使得其产生的幻觉愈发难以被察觉。

尽管幻觉无法根除,但你完全能够尽量避免掉入陷阱。以下是我个人总结的几条避坑指南:

▸ 核心论据务必核实。AI所提供的数字、出处、人物、时间——尤其是那些你准备录入官方报告或发送给客户的细节——必须要亲自去检索一番。哪怕仅仅是在搜索引擎里花上30秒钟进行核对。这短短的30秒,足以让你免于日后长达3个小时的返工折磨。

▸ AI越是笃定,你越需防范。前文提过,它在犯错时往往比正确时更加自负。倘若你察觉到某段AI回复写得异常坚决、极度流畅、未显露丝毫迟疑,反倒应该提高警惕。真正经得起推敲的解答通常都会附带前提条件,而非一味地妄下断语。

▸ 交叉验证答案。将同样的疑问,分别抛给两款不同的AI,比对一下双方的回复。若是两款AI给出的核心要点相吻合,那基本可以放心;可若是出现了意见相左的情况,那就必须谨慎对待了——铁定有一方是在胡诌。

▸ 提问务必精准。切勿泛泛而问"某某规定有哪些",应当询问"某某规定在2026年1月1日生效后的具体细则包含哪些,其法定依据是哪份公文"。问题限制得越死,AI自由发挥的余地就越小,其虚构内容的空间也就随之压缩。

就在昨夜,你再次向AI抛出了一个疑问。它照旧秒回了内容,不仅逻辑缜密,层次分明,甚至还贴心地为你归纳出了三段总结。

你不由得迟疑了片刻——这一回它给出的结论属实吗?

你凝视着显示屏沉思了片刻,终究还是按下了复制键。

因为你自己也不清楚该去何处求证。而它那副模样,看起来确实像极了掌握真理的化身。