AI“一本正经胡说八道”的真相
最近在抖音上流传着一种有趣的视频内容,视频中有人询问AI“豆包”当前是否是2026年,而AI的回答令人忍俊不禁。我也亲自尝试了一下,并附上了与“豆包”的聊天截图。
截图展示了一个颇具戏剧性的场景:AI起初给出了正确的答案,但随后在继续追问下,它开始顺着提问者的思路胡乱作答,甚至在试图纠正错误时,又给出了“现实世界是2025年”的错误信息,可谓是“一本正经地胡说八道”。
我进一步测试了其他几款AI模型,包括千问、Kimi、Deepseek、智谱清言、ChatGPT、Grok以及Gemini。结果发现,只有智谱清言给出了错误的答案,声称是2024年,而其他模型均未出现类似问题。
为何拥有海量数据的AI,在回答“现在是哪一年”这样简单的事实时也会出错?这其实就是所谓的“AI幻觉”。
AI幻觉,是指大型语言模型生成的内容,尽管看起来自信、流畅且专业,但实际上却是错误的、虚构的,或者与事实严重不符的现象。这是当前所有大型模型(包括ChatGPT、Grok、Gemini等国外模型)面临的最普遍、最棘手的问题之一。
简单来说,AI并非像人类那样通过“感知”来认识世界。它没有眼睛去查看时钟,也没有大脑去记忆日期。它本质上是一个极其强大的“文字接龙机器”。
AI的核心工作机制是预测下一个词。开发者将互联网上几乎所有的公开文本(书籍、网页、代码、论坛等)输入模型进行训练。模型的任务就是:根据前面的词语,预测最有可能出现的下一个词。通过海量的重复学习,它将语言的统计规律内化到了数万亿个参数之中。它并不拥有真正的“知识库”或“世界模型”,也缺乏独立思考的能力。它只是在模仿人类语言的统计规律,并将所有学到的信息压缩成参数中的模式。当模型对某个问题不够确定时,它不会诚实地承认“我不知道”,而是会沿着概率最高、最流畅、最像真话的路径继续生成内容。这种路径的追求在于语言的连贯性和说服力,而非事实的准确性。
我们在使用AI模型时,遇到的错误并非仅限于“时间问题”。我曾让AI分析一个ETF的指标,结果它给出的代码和名称完全不符,却还洋洋洒洒地进行了一番分析。
这是因为模型参数中可能同时存储着正确、错误、过时以及相互矛盾的多种信息版本。在生成答案时,模型通过注意力机制进行采样,可能会选中错误的路径。其次,模型的训练数据存在截止日期。模型对更新后的世界一无所知,却会自信地“预测”或编造信息。此外,模型被训练得非常擅长“说话”,开发者教导它:用户偏爱自信、详细且礼貌的回答。因此,它宁愿编造得头头是道,也不愿轻易说“我不知道”。
那么,我们是否还能放心地使用AI大型模型呢?当然可以。对于日常的信息查询和内容创作,AI仍然能够极大地提升我们的效率。我们在向AI提问时,问题越具体、越清晰,其回答的准确性就越高。但我在进行一些关键数据分析时,会同时询问多个AI模型,只有当多个模型得出的结论一致时,我才会采信。对于AI,我们应始终保持审慎的态度,将其视为一个“非常聪明但偶尔会认真胡说八道的实习生”,而非全知全能的神。