标签

AI为何总能胡说八道

发布时间:2026-04-27 14:02来源:微信阅读:13

芯智说·AI解析系列 #01

2023年5月,纽约南区联邦地区法院上演了一起足以写入AI发展史的离奇乌龙。执业30多年的资深律师史蒂文·施瓦茨(Steven A. Schwartz)在代理一宗航空旅客受伤案件时,使用ChatGPT检索相似判例。ChatGPT给出了6个“看起来相当专业”的案例:

2023年4月,对方律师在法律数据库里怎么都查不到这些案例,便向法官提出了质疑。更戏剧化的一幕发生了:施瓦茨一下子慌了神,又转身去问ChatGPT——“这些案例是真的吗?”

ChatGPT斩钉截铁地回答:“是的,这些案例都是真实存在的,我已经核实过。”

“这些案例的裁判结果、引文和内部引用,全都是编出来的。本法庭从未碰到过这种情况。”

— 法官 P. Kevin Castel,2023年6月22日

最终的处理结果是:两名律师各被罚款5000美元,还被要求亲笔写信向每一位被冒名的法官道歉,而案件本身也因为超过追诉时效被驳回。

💡 这,就是AI幻觉(Hallucination)的典型案例。一个拥有30年经验的老律师,几乎完全相信AI给出的回答,甚至在遭到质疑后,还让AI“再确认一遍”。而AI依旧自信、依旧流畅、依旧——一本正经地胡编乱造。

📋 Mata v. Avianca案示意图

01

在学术研究和工程实践中,AI的“幻觉”(Hallucination)通常会呈现出以下几类表现:

💡 关键特征:AI的幻觉常常伴随着极高的置信度。它很少说“可能”“也许”或“我不确定”,而是直接给出一个斩钉截铁的结论。这种笃定感,往往会让非专业用户信以为真。

❌ 误解一:“AI是在故意骗我”

AI并没有意图。它不是蓄意说谎,也不存在“欺骗”的动机。它的每一次输出,本质上都是数学计算的结果。

❌ 误解二:“是模型太弱了”

恰恰相反。能写出流畅文章、还能完成复杂推理的模型,往往参数更大、能力更强——可幻觉问题也更明显。这本身就是一个悖论。

❌ 误解三:“幻觉就是bug,迟早能修好”

幻觉其实是结构性问题,和模型架构本身高度绑定。只要Transformer的注意力机制 + 下一个Token预测这套模式不变,幻觉就很难彻底消失。我们能做的,是更深入地理解它、管理它。

02

现代大语言模型的核心任务,其实很简单:预测下一个最可能出现的Token。

这里的“Token”是什么?你可以把它理解成文本中的最小单位。它可能是一个完整词语(如“苹果”),也可能只是词的一部分(如“机”“apple”),甚至可以是标点符号。

举个直观的例子:当我们输入“今天的天气真”时,模型会计算所有可能的下一个Token及其概率,然后挑选概率最高的那个输出。

天气真 + “好” → 概率 32.1%

天气真 + “不错” → 概率 18.7%

天气真 + “糟糕” → 概率 12.3%

天气真 + “晴朗” → 概率 9.8%

这个过程,本质上就是条件概率计算:P(next_token | context),也就是在给定前文语境时,下一个Token出现的概率。

🔢 Token概率生成机制图解

第一:语言的真假,和概率并没有直接关系。模型在训练时学到的是“什么样的词序列更可能出现在人类文本里”。它掌握的是语言规律,而不是客观事实。

第二:训练数据的边界,就是模型认知的边界。如果某个人物、事件或概念从未出现在训练数据中,模型就无法“知道”它的存在。但模型不会说“我不知道”,因为从Token预测的角度看,它必须输出一个结果。

第三:注意力机制会带来“联想偏差”。Transformer架构里的自注意力机制,会让模型在生成当前Token时参考输入文本中的任意位置。这种机制让模型能够捕捉长距离依赖,但同时也可能引入“误导性关联”。

💡 可以这样类比:想象一个记忆力极强的人,他读完了人类有史以来几乎所有的书,然后被训练成专门“接话茬”——不管你说什么,他都能顺势接上,而且说得流畅自然。可他从来没有真正“验证”过这些内容到底是真是假。

03

理解了原理之后,工程师最关键的问题就来了:既然没法彻底根除,我们该怎么应对?

凡是涉及事实的信息,都要做交叉验证。这不是在否定AI,而是在尊重工程实践。

当AI说出“据报道”“研究表明”“有人认为”这类模糊措辞时,你就要提高警惕——这往往说明模型在“接话茬”时,找不到足够稳固的依据。

封闭域问题的幻觉率,通常远低于开放域问题。在设计AI应用时,应尽量缩小它需要回答的范围,并提供足够上下文,减少它“自由发挥”的空间。

当前工业界应对幻觉的主流方案之一是RAG(检索增强生成):

用户提问 → 检索相关资料 → 把资料作为上下文喂给AI → AI基于已知信息作答

⚙️ AI工作原理简化框架

📝

核心观点:AI的“胡说八道”并不是偶然,而是其工作方式的必然结果。它基于Token概率预测来生成文本,学习的是语言模式而不是事实真相。当它遇到训练数据中没有的实体或场景时,就会按照统计规律“拼接”出看似合理、其实可能是虚构的内容。这是架构性的特征,而不是偶发bug。

对工程师的启示:把AI看作一个“超级接话茬高手”,而不是“知识库查询工具”。它擅长的是语言流畅性和模式补全,短板则是事实准确性和实时信息同步。理解这一点,不是为了否定AI的价值,而是为了让我们更正确地使用它。

💬 留给你的思考: 你在使用AI时,遇到过最离谱的“一本正经胡说八道”是什么?欢迎在评论区分享,我们可以一起分析背后的原因。

📌 系列预告 下一期我们将探讨《为什么AI的“上下文窗口”如此重要?》,从工程视角解析大模型记忆的本质与边界。

芯智说·AI解说系列 用理工科思维,拆解AI的底层逻辑