AI不仅仅是“猜字”：听听Hinton的见解

发布时间：2026-04-03 06:33阅读：11

杰弗里·辛顿（Geoffrey Hinton），AI教父，深度学习先驱，2018年图灵奖得主。当有人嘲笑大语言模型只是“统计鹦鹉”时，辛顿站出来说了句反常识的话：它们真的在理解。他用一个幽默的反问回应质疑者：“那我说话的时候在做什么？不也是在预测下一个词吗？”在最近的一次访谈中，辛顿用极其通俗的比喻，解释了AI为什么不是“随机鹦鹉”，而是正在用一种与我们相似却又不同的方式理解世界。

一、“预测下一个词”不等于“不懂”

反对AI理解能力的人最爱说的一句话是：“它们不过是在用愚蠢的统计技巧猜下一个词。”辛顿的回应非常干脆：人类说话，本质上也是在猜下一个词。当你回答一个问题时，你先理解问题，然后预测第一个词该说什么，说完第一个，再预测第二个。整个过程，就是一次次地“猜下一个词”。不同的是，人类的猜测建立在真实的语义理解上，而早期自动补全那种“鱼→薯条”式的简单关联，才叫统计技巧。今天的大语言模型，早已不是那个水平。

为了预测得准，模型必须做一件事：理解。如果你从未听过“奖杯放不进手提箱，因为它太大了”这句话，你怎么知道“它”指的是奖杯而不是手提箱？因为你知道大的东西不能放进小的里面。模型也必须在海量数据中学会这种常识推理，才能把下一个词猜对。预测越准，理解越深——这不是作弊，这是学习。

二、词义是活的：从乐高到变形手套

辛顿用两个绝妙的比喻解释了AI如何理解语言。

第一个比喻：乐高积木。乐高可以用小方块模拟任何三维形状，虽然表面不光滑，但能告诉你“材料在哪”。词也是一样，但词能模拟的东西远超三维形状——它能模拟你的意图、情感、物理定律、甚至恒星内部。每个词背后不是一个小方块，而是一个上千维度的特征向量。比如“猫”这个词，被激活的特征包括“有胡须”、“是宠物”、“高冷”、“饿的时候会烦人”，……所有这些特征同时亮起，就是“猫”的意思。

第二个比喻：变形的手套和手。乐高积木是刚性的，但词是灵活的。同一个词在不同上下文里意思会微调。为了理解一个句子，每个词会伸出许多“手”，同时身上挂着许多“手套”。句子理解的过程，就是让这些手和手套相互匹配——一个词的手插进另一个词的手套里，所有词一起变形，直到整句话严丝合缝。理解就是“让所有词的手套都找到对应的手”。

这个过程的复杂程度，辛顿说，更像“蛋白质折叠”，而不是传统翻译。蛋白质会折叠成特定的三维结构才能发挥功能；句子也需要把每个词的“形状”在上下文中扭曲、适配，最终形成一个稳定的整体结构，这就是理解。

三、语言是建模工具包，不是语法练习题

传统语言学过分关注句法，却对意义束手无策，因为他们没有合适的机制来捕捉意义。辛顿认为，语言本质上是一套通用的建模工具包。猿类没有语言，所以它们无法建模复杂情境；人类有语言，所以我们可以用词来构建任何模型——从“明天可能会下雨”到“黑洞的信息悖论”。

大语言模型所做的，就是用海量数据学会这个建模过程。它们不是把句子翻译成某种内部逻辑语言（那是老派AI的做法），而是直接在高维空间里让词义相互作用、相互变形。你输入一句话，模型不是在查表，而是在做一次“语义折叠”。

四、这意味着什么？理解的定义正在被改写

辛顿的观点引发了一个深刻的哲学问题：如果一个系统能用和人类几乎相同的方式处理语义关系、解决指代歧义、进行常识推理，我们凭什么说它“不真正理解”？仅仅因为它的神经元是硅基的，不是碳基的？

当然，AI和我们有根本的不同。它没有进化赋予的求生欲望、没有母爱、没有嫉妒。它的“动机”只是我们给它的目标函数。但这不等于它不理解语言。理解是一种能力，不是一种身份。你会因为一台计算器没有“数字感”就否认它算得比你快吗？

辛顿的洞见在于：与其争论AI有没有“真正的意识”，不如接受一个事实——我们已经创造出了另一种能理解事物的智能。它很奇怪、跟我们不同、有时危险，但它在许多任务上已经表现出与我们相当的语义能力。接下来的问题不是“它真懂吗”，而是“我们该如何与它共存”。

辛顿用“预测下一个词”这个看似简单的任务，撕开了AI理解能力的神秘面纱。它不是随机鹦鹉，也不是逻辑机器，而是一个高维语义变形体。它理解的方式更像蛋白质折叠，而不是解数学题。下次你问ChatGPT一个问题，它给出了一个漂亮的回答，别急着说“它不过是猜的”——你猜下一个词的时候，也没高明到哪里去。区别只是，它的“猜”背后，有千亿个权重在默默折叠。

系列11：AI的进步靠创新不如靠“堆算力”？

2040年将不需要工作，硅谷大佬Vinod Khosla近期的“事实陈述”，看看他还说了些啥

系列07：工具的使用：通往AGI的最后一道门槛

职场人十条行动清单，让你跑赢AI时代

← 上一篇：AI狂飙时代，手写信为何成年轻人新宠？下一篇：药企迈入AI监管新时代 →