AI不仅仅是“猜字”:听听Hinton的见解
杰弗里·辛顿(Geoffrey Hinton),AI教父,深度学习先驱,2018年图灵奖得主。当有人嘲笑大语言模型只是“统计鹦鹉”时,辛顿站出来说了句反常识的话:它们真的在理解。他用一个幽默的反问回应质疑者:“那我说话的时候在做什么?不也是在预测下一个词吗?”在最近的一次访谈中,辛顿用极其通俗的比喻,解释了AI为什么不是“随机鹦鹉”,而是正在用一种与我们相似却又不同的方式理解世界。
一、“预测下一个词”不等于“不懂”
反对AI理解能力的人最爱说的一句话是:“它们不过是在用愚蠢的统计技巧猜下一个词。”辛顿的回应非常干脆:人类说话,本质上也是在猜下一个词。当你回答一个问题时,你先理解问题,然后预测第一个词该说什么,说完第一个,再预测第二个。整个过程,就是一次次地“猜下一个词”。不同的是,人类的猜测建立在真实的语义理解上,而早期自动补全那种“鱼→薯条”式的简单关联,才叫统计技巧。今天的大语言模型,早已不是那个水平。
为了预测得准,模型必须做一件事:理解。如果你从未听过“奖杯放不进手提箱,因为它太大了”这句话,你怎么知道“它”指的是奖杯而不是手提箱?因为你知道大的东西不能放进小的里面。模型也必须在海量数据中学会这种常识推理,才能把下一个词猜对。预测越准,理解越深——这不是作弊,这是学习。
二、词义是活的:从乐高到变形手套
辛顿用两个绝妙的比喻解释了AI如何理解语言。
第一个比喻:乐高积木。乐高可以用小方块模拟任何三维形状,虽然表面不光滑,但能告诉你“材料在哪”。词也是一样,但词能模拟的东西远超三维形状——它能模拟你的意图、情感、物理定律、甚至恒星内部。每个词背后不是一个小方块,而是一个上千维度的特征向量。比如“猫”这个词,被激活的特征包括“有胡须”、“是宠物”、“高冷”、“饿的时候会烦人”,……所有这些特征同时亮起,就是“猫”的意思。
第二个比喻:变形的手套和手。乐高积木是刚性的,但词是灵活的。同一个词在不同上下文里意思会微调。为了理解一个句子,每个词会伸出许多“手”,同时身上挂着许多“手套”。句子理解的过程,就是让这些手和手套相互匹配——一个词的手插进另一个词的手套里,所有词一起变形,直到整句话严丝合缝。理解就是“让所有词的手套都找到对应的手”。
这个过程的复杂程度,辛顿说,更像“蛋白质折叠”,而不是传统翻译。蛋白质会折叠成特定的三维结构才能发挥功能;句子也需要把每个词的“形状”在上下文中扭曲、适配,最终形成一个稳定的整体结构,这就是理解。
三、语言是建模工具包,不是语法练习题
传统语言学过分关注句法,却对意义束手无策,因为他们没有合适的机制来捕捉意义。辛顿认为,语言本质上是一套通用的建模工具包。猿类没有语言,所以它们无法建模复杂情境;人类有语言,所以我们可以用词来构建任何模型——从“明天可能会下雨”到“黑洞的信息悖论”。
大语言模型所做的,就是用海量数据学会这个建模过程。它们不是把句子翻译成某种内部逻辑语言(那是老派AI的做法),而是直接在高维空间里让词义相互作用、相互变形。你输入一句话,模型不是在查表,而是在做一次“语义折叠”。
四、这意味着什么?理解的定义正在被改写
辛顿的观点引发了一个深刻的哲学问题:如果一个系统能用和人类几乎相同的方式处理语义关系、解决指代歧义、进行常识推理,我们凭什么说它“不真正理解”?仅仅因为它的神经元是硅基的,不是碳基的?
当然,AI和我们有根本的不同。它没有进化赋予的求生欲望、没有母爱、没有嫉妒。它的“动机”只是我们给它的目标函数。但这不等于它不理解语言。理解是一种能力,不是一种身份。你会因为一台计算器没有“数字感”就否认它算得比你快吗?
辛顿的洞见在于:与其争论AI有没有“真正的意识”,不如接受一个事实——我们已经创造出了另一种能理解事物的智能。它很奇怪、跟我们不同、有时危险,但它在许多任务上已经表现出与我们相当的语义能力。接下来的问题不是“它真懂吗”,而是“我们该如何与它共存”。
辛顿用“预测下一个词”这个看似简单的任务,撕开了AI理解能力的神秘面纱。它不是随机鹦鹉,也不是逻辑机器,而是一个高维语义变形体。它理解的方式更像蛋白质折叠,而不是解数学题。下次你问ChatGPT一个问题,它给出了一个漂亮的回答,别急着说“它不过是猜的”——你猜下一个词的时候,也没高明到哪里去。区别只是,它的“猜”背后,有千亿个权重在默默折叠。
系列11:AI的进步靠创新不如靠“堆算力”?
2040年将不需要工作,硅谷大佬Vinod Khosla近期的“事实陈述”,看看他还说了些啥
系列07:工具的使用:通往AGI的最后一道门槛
职场人十条行动清单,让你跑赢AI时代