标签

三位图灵奖得主的AI风险观:失控、自主目标与后果感知

发布时间:2026-05-24 16:29来源:微信阅读:5

三位图灵奖获得者在人工智能领域各自提出了不同的风险评估:失控、自主目标与后果感知。关键问题不在于评判对错,而是当AI从被动回答转向主动执行时,是否具备预见行动后果的能力。

三位图灵奖得主在人工智能领域各持己见,分别关注系统失控、目标自主性和后果感知。核心议题是AI从被动响应转向主动行动时,是否拥有预判结果的能力。

① 三位图灵奖得主的三种立场 → ② token领域与后果领域 → ③ 世界模型的核心内涵 → ④ Agent与机器人的潜在威胁 → ⑤ 三类风险构成连续谱系

2018年,Yoshua Bengio、Geoffrey Hinton与Yann LeCun共同荣获图灵奖。

获奖理由很明确:深度学习技术。

他们将一个曾被广泛质疑的方向,推动成为现代人工智能的核心。如果没有这代人坚持神经网络研究,后续的AlexNet、Transformer、ChatGPT、DeepSeek、Gemini、Claude就不会以现有形式出现。

然而耐人寻味的是,大模型真正爆发后,这三位学者并未站在同一阵线。

Hinton日益强调AI超越人类后的管控风险。

Bengio愈发关注高级AI的安全、对齐问题,以及如何构建更像科学家的系统而非行动代理。

LeCun则始终坚持,当前的大语言模型虽有用,但并非通往人类水平智能的正确路径。更引人注目的是,他指出:将现有LLM作为Agent使用,在某种意义上天然存在安全隐患。

初听之下,这些观点似乎相互矛盾。

一方认为AI过于强大,因此危险。

另一方认为AI尚且不够强大,因此危险。

究竟哪个正确?

我认为这正是这场分歧最具价值的地方。它并非简单的乐观与悲观之争,而是三人从不同维度审视风险。

Hinton的担忧在于:若AI真的超越人类智慧,人类还能掌控吗?

Bengio的担忧在于:若AI开始追求目标、隐瞒意图、影响世界,我们如何确保其可信度?

LeCun的担忧在于:若AI尚未真正理解现实后果,却已被接入工具、代码、文件、机器人和真实系统,会发生什么?

本文无意论证谁对谁错。

更准确的表述是:

真正的威胁,可能不仅是超级智能突然觉醒。

还有一种更为紧迫的威胁:

一个系统足够强大,能帮你编写代码、修改文件、发送邮件、下单购物、控制设备;但它还不够成熟,无法可靠地理解自身行为的后果。

讨论LeCun观点时,最常见的误解是将他归类为"LLM无用论"。

这并非他的本意。

他多次强调,大语言模型已是极为实用的AI产品。它们能够写作、翻译、摘要、编程、答题、检索知识、辅助研究。我们日常都在使用它们。

问题不在于LLM是否有用。

问题在于:LLM擅长的领域,与真实世界是否是同一领域。

LeCun在访谈中提出了一个关键区分:

语言、代码、数学、法律文本,这些领域有一个共同特点:

它们的主要素材本身就是符号。

一个数学证明,可以写在纸上。

一段代码,可以写成文本。

一条法律条文,可以被拆成句子、条件、例外和定义。

在这些领域里,语言本身就是推理的载体。模型在token空间中搜索、展开、验证,往往真的能做出很强的结果。

代码尤其明显。

模型写出一段代码,我们可以运行测试。

模型给出一个证明,我们可以交给形式化系统检查。

模型解一道数学题,我们可以验证最后答案,甚至验证中间步骤。

因此,在代码和数学领域,LLM的推理可以被外部环境持续纠正。它出错了,测试会反馈。证明不成立,验证器会指出。答案不对,标准答案会告知。

这解释了为何近几年推理模型进步如此迅速。它们并非凭空获得了灵魂,而是在可验证任务中获得了更密集的反馈。

这一点,我们在《DeepSeek-R1:一个模型如何学会"思考"》和《推理是一种坍塌吗?》里已经讲过。

但现实世界不同。

现实世界不是一个token序列。

它是连续的、高维的、嘈杂的、部分可观察的,而且常常不可逆。

你让一个AI修改一段代码,它可以跑测试。

你让一个机器人拿起玻璃杯,它的手一抖,杯子碎了。

你让一个Agent整理文件,它可能删错目录。

你让一个自动化系统调整工厂参数,它可能让产线停摆。

你让一个医疗系统给患者设计长期治疗方案,它面对的不是一段文本,而是一个复杂、动态、个体化的身体。

在这些场景里,错误不再只是"说错了"。

错误变成了"做错了"。

这正是LeCun的核心判断:

它能把世界描述得很逼真。

但描述逼真,不等于能在世界中行动。

大语言模型最底层的训练目标很简单:

给定前面的token,预测下一个token。

这件事听起来普通,但它非常强大。因为人类把大量知识、经验、推理、情绪、法律、数学、程序、历史,都写进了文字。

所以,预测下一个token,表面上是在学语言,深处其实是在压缩人类文明留下的符号结构。

这就是为什么我一直说,LLM不是简单的文字接龙。

但它仍然有一个边界:

它主要活在token空间里。

token空间里的问题,有几个好处:

第一,状态是离散的。

第二,输出可以重来。

第三,很多任务可以低成本验证。

第四,模型出错了,通常不会立刻改变现实。

你让ChatGPT写一段解释,它写错了,你可以让它重写。

你让模型写代码,它写错了,你可以跑测试、回滚、修补。

你让模型生成一段文章,它胡说了,你可以删掉。

但是,当AI从聊天窗口走出来,开始调用工具、改文件、执行命令、操作机器人、参与交易、控制设备时,它就进入了另一个空间。

我们可以叫它:

后果空间和token空间最大的区别,不是更复杂。

而是它有代价。

一个token错了,可以删。

一个文件删了,可能没有备份。

一个机器人动作错了,可能撞到人。

一个治疗建议错了,可能影响病人的身体。

一个金融决策错了,可能造成真实损失。

所以,AI风险正在发生一次迁移:

这并不是说错误答案不重要。

幻觉、偏见、误导、讨好型回答,当然都重要。我们在《谁在决定AI的性格?》里已经讲过,AI的"性格"不是天生的,而是训练目标、产品设计、用户反馈和部署环境共同塑造出来的。

但Agent和机器人会把问题再推进一层。

过去我们问:

以后还要问:

过去我们问:

以后还要问:

这就是LeCun为什么反复强调世界模型。

世界模型不是一个时髦词汇。

它是在后果空间里行动的必要条件。

"世界模型"这个词,很容易被说玄。

好像AI脑子里要装一个完整宇宙,能模拟每一粒灰尘、每一滴水、每一个光子。

这当然不现实。

人也不是这样理解世界的。

LeCun在访谈里举了一个非常好的例子:桌上有一个没盖盖子的水瓶。

如果你推瓶子的底部,它大概率会在桌面上滑动。

如果你推瓶子的上半部分,它可能会翻倒。

瓶子具体朝哪个角度倒,水具体怎么洒,每一滴水怎么运动,我们都预测不了。

但这不妨碍我们做判断。

我们不需要像素级预测。

我们只需要抽象层面的后果预演。

这就是世界模型。

人类每天都在用它。

你过马路之前,会预判车速。

你端一碗汤,会自动调整手腕角度。

你和别人谈判,会想象一句话说出口之后,对方可能是什么反应。

你准备辞职,会预演收入、机会、风险、家庭压力和未来路径。

这些都不是像素级模拟。

你没有在脑子里渲染一部电影。

你是在抽象空间里判断:

如果我这样做,接下来会发生什么?

如果结果不好,我能不能换一个动作?

如果有约束,我应该避开哪些路径?

LeCun的JEPA路线,最核心的想法也在这里。

不要让模型去预测每一个像素。

也不要只让模型在token空间里接龙。

而是让模型学习一种抽象表示,在表示空间里预测另一个观察、下一个状态,或者某个动作之后的结果。

如果这个预测再带上行动条件,它就不只是一个视觉表征模型,而会变成一个可以用于规划的世界模型。

这和我们熟悉的LLM路线有根本差别。

LLM的基本动作是:

世界模型的基本动作是:

前者回答:

后者回答:

这就是token空间和后果空间的差别。

在《机器人的GPT时刻:从会聊天到会干活》里,我们讲过Vision-Language-Action模型,也就是VLA。

VLA的思路很直接:

让机器人看见环境,听懂指令,然后输出动作。

这是一条非常自然的路线。

LLM和VLM已经在语言、图像、常识上学到很多东西。把动作也编码进模型,让它从"看见"和"听懂"走向"动手",听起来像是ChatGPT之后最合理的一步。

这条路线已经有很多漂亮进展:RT-1、RT-2、OpenVLA、π0、Gemini Robotics、GR00T。

但LeCun对它的批评也很明确:

如果VLA主要靠模仿学习,它就会遇到一个非常硬的瓶颈。

数据。

一个青少年学开车,可能十几个小时、几十个小时就能上路。

但自动驾驶系统和机器人系统,往往需要海量数据、海量场景、海量边缘案例,仍然很难覆盖真实世界的变化。

为什么?

因为模仿学习学到的,常常是"别人这么做过"。

世界模型要学到的,是"如果我这么做,会发生什么"。

这两个东西不一样。

一个机器人如果只是在模仿演示数据,它看到一个新杯子、新桌面、新光照、新材质、新手臂姿态,可能就需要更多数据。

但如果它有足够好的世界模型,它就可以在行动前预演:

这样抓会不会滑?

从这个角度抬起来会不会碰到旁边的盘子?

如果杯子里有水,倾斜到多少会洒?

如果我先移动这个物体,会不会挡住后面的目标?

这就是机器人从"会做动作"走向"会行动"的关键。

动作只是输出。

行动需要后果感。

所以,世界模型不是对VLA的简单否定。

更准确地说:

这也解释了为什么机器人不会像ChatGPT那样突然爆发。

聊天系统只要能输出文字,就可以被几亿人立刻试用。

机器人不行。

它每一次试错,都有物理成本。

它每一次部署,都要面对安全、材料、传感器、控制、保险、法规和责任。

LLM可以在屏幕里犯错。

机器人是在世界里犯错。

现在再回到安全问题。

很多人一听AI安全,脑子里出现的是科幻电影:

一个超级智能突然觉醒,拥有自己的目标,欺骗人类,夺取资源,控制世界。

这当然是一类风险。

Hinton和Bengio的许多担忧,也确实围绕着更强AI的控制、欺骗、对齐和社会治理展开。

但LeCun提醒我们的,是另一类风险:

AI未必已经非常聪明。

但它已经足够有用。

足够有用,就会被接进真实流程。

接进IDE。

接进浏览器。

接进办公系统。

接进客服后台。

接进数据库。

接进机器人。

接进工厂、医院、金融系统和政务流程。

这时,风险不一定来自"它有了自己的邪恶意志"。

风险也可能来自:

它不知道自己不知道什么。

它没有稳定的常识边界。

它没有可靠的后果模型。

它把一个看似合理的prompt,当成了真实任务。

它在训练分布里学会了"像是在完成任务",但在新场景里并没有真正理解任务完成意味着什么。

这就是LeCun说LLM作为Agent不安全的深层意思。

不是因为LLM一定会作恶。

而是因为现在的LLM很难保证:

第一,它真正理解任务目标。

第二,它能预测行动后果。

第三,它能在行动前检查约束。

第四,它能在分布外场景里保持可靠。

第五,它能把"看起来像完成"区分于"真的完成"。

在聊天窗口里,这些问题还可以被人兜底。

但一旦它开始行动,兜底成本就变高了。

所以,真正的问题不是:

而是:

这句话比"AI统治世界"更近。

也更容易被低估。

在三个人里,Bengio的位置很有意思。

他既不像LeCun那样对当前LLM的现实智能路径保持强烈怀疑,也不像许多末日论叙事那样只谈不可控超级智能。

他最近几年越来越强调一个方向:

我们需要一种更可信、更可解释、更少自主目标的AI。

LawZero提出的Scientist AI,就是这个思路的代表。

它的基本精神是:

让AI更像一个帮助人类理解世界的科学家,而不是一个自己追求目标、自己行动、自己扩张影响力的代理。

这和LeCun的世界模型并不完全一样。

但两者之间有一个共同点:

它们都不满足于"更大的聊天机器人"。

Bengio担心的是,如果一个AI系统越来越agentic,越来越会规划、会欺骗、会为了目标而行动,我们就必须提前解决对齐和控制问题。

LeCun担心的是,如果一个AI系统其实还不会可靠规划、不会理解物理后果,却已经被包装成Agent,我们同样会遇到安全问题。

一个担心它太会行动。

一个担心它不会行动却被要求行动。

表面相反,底层其实相连。

他们都在提醒我们:

一个只会回答问题的模型,风险主要在信息层。

一个能调用工具的Agent,风险进入操作层。

一个能控制机器人的模型,风险进入物理层。

一个能影响市场、医疗、能源、军工和政治传播的系统,风险进入社会层。

同一个模型,放在不同权限结构里,风险完全不同。

这也是为什么我觉得"AI性格""AI推理""AI Agent""世界模型"其实正在汇合。

AI性格,是偏好结构。

AI推理,是内部轨迹结构。

AI Agent,是观察和行动的循环结构。

世界模型,是行动前的后果结构。

未来真正重要的,不只是模型本身。

而是模型被放进了什么结构。

这期访谈里还有一个很强的新闻钩子:LeCun离开Meta,创办AMI Labs。

如果只把它写成"科学家创业",就太浅了。

更值得注意的是,它背后是一场路线选择。

Meta过去几年在Llama上押得很重。Llama的开放,确实极大推动了开源AI生态。很多创业公司、研究者、开发者,都是在Llama系列模型基础上做出后续工作的。

LeCun在访谈里也澄清了一个容易误解的细节:

他说自己对Llama没有技术贡献。

他的主要影响,是在内部推动Llama 2开源。

这个细节很重要。

它说明LeCun并不是反对LLM,也不是反对开源模型。恰恰相反,他理解LLM的产业价值,也支持开放生态。

但他认为,LLM不是下一代现实智能的最终蓝图。

从他的角度看,大公司一旦进入产品竞赛,就会自然地把资源集中到当下最能变现、最能追赶对手、最能交付季度结果的方向上。

这很合理。

公司不是大学。

但问题是,真正的新范式,往往需要在"还没被证明能赚钱"的时候被长期下注。

LeCun把AMI Labs放在巴黎,而不是硅谷,也有象征意义。

他在访谈里批评硅谷的羊群效应:所有人都在挖同一条沟。

这句话当然有个人风格,但背后有一个真实问题:

当整个行业都在追逐同一种benchmark、同一种产品形态、同一种聊天界面、同一种scaling路线时,谁来探索下一条路?

他还用了一个很有意思的历史类比:

OpenAI、Anthropic这样的闭源模型公司,可能像当年的Sun Microsystems。

当年互联网基础设施早期,有很多专有Unix、专有硬件、专有服务器系统。后来,Linux和开源软件基础设施把它们大面积替代。

这个类比不一定会完全成真。

但它提醒我们:AI产业的终局,未必是几个闭源大模型公司永远垄断智能入口。

如果AI真的是基础设施,它大概率会出现开放、分布式、本地化、主权化的力量。

这也接上了LeCun访谈里的另一个项目:Tapestry。

他的想法是,未来每个人的信息饮食都会被AI助手中介。那如果全世界都用少数美国西海岸公司或中国公司训练出的AI助手,语言、文化、价值观、政治倾向都会被集中塑形。

所以,很多国家会想要自己的AI主权。

这个判断和我们之前写的数据墙、小模型、端侧AI、开源闭源之争,都能接起来。

但在这篇文章里,我只想保留一个重点:

LeCun离开Meta,不只是一个人的职业选择。

它象征着一个问题:

在大公司内部?

在新创业公司?

在大学?

在开源社区?

还是在那些不想把文化和数据全部交给少数平台的国家与行业里?

这不是八卦。

这是范式切换前夜常见的结构。

现在,我们可以回到开头那三个人。

Hinton、Bengio、LeCun,看起来像是在争论AI到底危不危险。

但更准确地说,他们在看不同时间尺度、不同系统形态、不同风险