三位图灵奖得主的AI风险观:失控、自主目标与后果感知
三位图灵奖获得者在人工智能领域各自提出了不同的风险评估:失控、自主目标与后果感知。关键问题不在于评判对错,而是当AI从被动回答转向主动执行时,是否具备预见行动后果的能力。
三位图灵奖得主在人工智能领域各持己见,分别关注系统失控、目标自主性和后果感知。核心议题是AI从被动响应转向主动行动时,是否拥有预判结果的能力。
① 三位图灵奖得主的三种立场 → ② token领域与后果领域 → ③ 世界模型的核心内涵 → ④ Agent与机器人的潜在威胁 → ⑤ 三类风险构成连续谱系
2018年,Yoshua Bengio、Geoffrey Hinton与Yann LeCun共同荣获图灵奖。
获奖理由很明确:深度学习技术。
他们将一个曾被广泛质疑的方向,推动成为现代人工智能的核心。如果没有这代人坚持神经网络研究,后续的AlexNet、Transformer、ChatGPT、DeepSeek、Gemini、Claude就不会以现有形式出现。
然而耐人寻味的是,大模型真正爆发后,这三位学者并未站在同一阵线。
Hinton日益强调AI超越人类后的管控风险。
Bengio愈发关注高级AI的安全、对齐问题,以及如何构建更像科学家的系统而非行动代理。
LeCun则始终坚持,当前的大语言模型虽有用,但并非通往人类水平智能的正确路径。更引人注目的是,他指出:将现有LLM作为Agent使用,在某种意义上天然存在安全隐患。
初听之下,这些观点似乎相互矛盾。
一方认为AI过于强大,因此危险。
另一方认为AI尚且不够强大,因此危险。
究竟哪个正确?
我认为这正是这场分歧最具价值的地方。它并非简单的乐观与悲观之争,而是三人从不同维度审视风险。
Hinton的担忧在于:若AI真的超越人类智慧,人类还能掌控吗?
Bengio的担忧在于:若AI开始追求目标、隐瞒意图、影响世界,我们如何确保其可信度?
LeCun的担忧在于:若AI尚未真正理解现实后果,却已被接入工具、代码、文件、机器人和真实系统,会发生什么?
本文无意论证谁对谁错。
更准确的表述是:
真正的威胁,可能不仅是超级智能突然觉醒。
还有一种更为紧迫的威胁:
一个系统足够强大,能帮你编写代码、修改文件、发送邮件、下单购物、控制设备;但它还不够成熟,无法可靠地理解自身行为的后果。
讨论LeCun观点时,最常见的误解是将他归类为"LLM无用论"。
这并非他的本意。
他多次强调,大语言模型已是极为实用的AI产品。它们能够写作、翻译、摘要、编程、答题、检索知识、辅助研究。我们日常都在使用它们。
问题不在于LLM是否有用。
问题在于:LLM擅长的领域,与真实世界是否是同一领域。
LeCun在访谈中提出了一个关键区分:
语言、代码、数学、法律文本,这些领域有一个共同特点:
它们的主要素材本身就是符号。
一个数学证明,可以写在纸上。
一段代码,可以写成文本。
一条法律条文,可以被拆成句子、条件、例外和定义。
在这些领域里,语言本身就是推理的载体。模型在token空间中搜索、展开、验证,往往真的能做出很强的结果。
代码尤其明显。
模型写出一段代码,我们可以运行测试。
模型给出一个证明,我们可以交给形式化系统检查。
模型解一道数学题,我们可以验证最后答案,甚至验证中间步骤。
因此,在代码和数学领域,LLM的推理可以被外部环境持续纠正。它出错了,测试会反馈。证明不成立,验证器会指出。答案不对,标准答案会告知。
这解释了为何近几年推理模型进步如此迅速。它们并非凭空获得了灵魂,而是在可验证任务中获得了更密集的反馈。
这一点,我们在《DeepSeek-R1:一个模型如何学会"思考"》和《推理是一种坍塌吗?》里已经讲过。
但现实世界不同。
现实世界不是一个token序列。
它是连续的、高维的、嘈杂的、部分可观察的,而且常常不可逆。
你让一个AI修改一段代码,它可以跑测试。
你让一个机器人拿起玻璃杯,它的手一抖,杯子碎了。
你让一个Agent整理文件,它可能删错目录。
你让一个自动化系统调整工厂参数,它可能让产线停摆。
你让一个医疗系统给患者设计长期治疗方案,它面对的不是一段文本,而是一个复杂、动态、个体化的身体。
在这些场景里,错误不再只是"说错了"。
错误变成了"做错了"。
这正是LeCun的核心判断:
它能把世界描述得很逼真。
但描述逼真,不等于能在世界中行动。
大语言模型最底层的训练目标很简单:
给定前面的token,预测下一个token。
这件事听起来普通,但它非常强大。因为人类把大量知识、经验、推理、情绪、法律、数学、程序、历史,都写进了文字。
所以,预测下一个token,表面上是在学语言,深处其实是在压缩人类文明留下的符号结构。
这就是为什么我一直说,LLM不是简单的文字接龙。
但它仍然有一个边界:
它主要活在token空间里。
token空间里的问题,有几个好处:
第一,状态是离散的。
第二,输出可以重来。
第三,很多任务可以低成本验证。
第四,模型出错了,通常不会立刻改变现实。
你让ChatGPT写一段解释,它写错了,你可以让它重写。
你让模型写代码,它写错了,你可以跑测试、回滚、修补。
你让模型生成一段文章,它胡说了,你可以删掉。
但是,当AI从聊天窗口走出来,开始调用工具、改文件、执行命令、操作机器人、参与交易、控制设备时,它就进入了另一个空间。
我们可以叫它:
后果空间和token空间最大的区别,不是更复杂。
而是它有代价。
一个token错了,可以删。
一个文件删了,可能没有备份。
一个机器人动作错了,可能撞到人。
一个治疗建议错了,可能影响病人的身体。
一个金融决策错了,可能造成真实损失。
所以,AI风险正在发生一次迁移:
这并不是说错误答案不重要。
幻觉、偏见、误导、讨好型回答,当然都重要。我们在《谁在决定AI的性格?》里已经讲过,AI的"性格"不是天生的,而是训练目标、产品设计、用户反馈和部署环境共同塑造出来的。
但Agent和机器人会把问题再推进一层。
过去我们问:
以后还要问:
过去我们问:
以后还要问:
这就是LeCun为什么反复强调世界模型。
世界模型不是一个时髦词汇。
它是在后果空间里行动的必要条件。
"世界模型"这个词,很容易被说玄。
好像AI脑子里要装一个完整宇宙,能模拟每一粒灰尘、每一滴水、每一个光子。
这当然不现实。
人也不是这样理解世界的。
LeCun在访谈里举了一个非常好的例子:桌上有一个没盖盖子的水瓶。
如果你推瓶子的底部,它大概率会在桌面上滑动。
如果你推瓶子的上半部分,它可能会翻倒。
瓶子具体朝哪个角度倒,水具体怎么洒,每一滴水怎么运动,我们都预测不了。
但这不妨碍我们做判断。
我们不需要像素级预测。
我们只需要抽象层面的后果预演。
这就是世界模型。
人类每天都在用它。
你过马路之前,会预判车速。
你端一碗汤,会自动调整手腕角度。
你和别人谈判,会想象一句话说出口之后,对方可能是什么反应。
你准备辞职,会预演收入、机会、风险、家庭压力和未来路径。
这些都不是像素级模拟。
你没有在脑子里渲染一部电影。
你是在抽象空间里判断:
如果我这样做,接下来会发生什么?
如果结果不好,我能不能换一个动作?
如果有约束,我应该避开哪些路径?
LeCun的JEPA路线,最核心的想法也在这里。
不要让模型去预测每一个像素。
也不要只让模型在token空间里接龙。
而是让模型学习一种抽象表示,在表示空间里预测另一个观察、下一个状态,或者某个动作之后的结果。
如果这个预测再带上行动条件,它就不只是一个视觉表征模型,而会变成一个可以用于规划的世界模型。
这和我们熟悉的LLM路线有根本差别。
LLM的基本动作是:
世界模型的基本动作是:
前者回答:
后者回答:
这就是token空间和后果空间的差别。
在《机器人的GPT时刻:从会聊天到会干活》里,我们讲过Vision-Language-Action模型,也就是VLA。
VLA的思路很直接:
让机器人看见环境,听懂指令,然后输出动作。
这是一条非常自然的路线。
LLM和VLM已经在语言、图像、常识上学到很多东西。把动作也编码进模型,让它从"看见"和"听懂"走向"动手",听起来像是ChatGPT之后最合理的一步。
这条路线已经有很多漂亮进展:RT-1、RT-2、OpenVLA、π0、Gemini Robotics、GR00T。
但LeCun对它的批评也很明确:
如果VLA主要靠模仿学习,它就会遇到一个非常硬的瓶颈。
数据。
一个青少年学开车,可能十几个小时、几十个小时就能上路。
但自动驾驶系统和机器人系统,往往需要海量数据、海量场景、海量边缘案例,仍然很难覆盖真实世界的变化。
为什么?
因为模仿学习学到的,常常是"别人这么做过"。
世界模型要学到的,是"如果我这么做,会发生什么"。
这两个东西不一样。
一个机器人如果只是在模仿演示数据,它看到一个新杯子、新桌面、新光照、新材质、新手臂姿态,可能就需要更多数据。
但如果它有足够好的世界模型,它就可以在行动前预演:
这样抓会不会滑?
从这个角度抬起来会不会碰到旁边的盘子?
如果杯子里有水,倾斜到多少会洒?
如果我先移动这个物体,会不会挡住后面的目标?
这就是机器人从"会做动作"走向"会行动"的关键。
动作只是输出。
行动需要后果感。
所以,世界模型不是对VLA的简单否定。
更准确地说:
这也解释了为什么机器人不会像ChatGPT那样突然爆发。
聊天系统只要能输出文字,就可以被几亿人立刻试用。
机器人不行。
它每一次试错,都有物理成本。
它每一次部署,都要面对安全、材料、传感器、控制、保险、法规和责任。
LLM可以在屏幕里犯错。
机器人是在世界里犯错。
现在再回到安全问题。
很多人一听AI安全,脑子里出现的是科幻电影:
一个超级智能突然觉醒,拥有自己的目标,欺骗人类,夺取资源,控制世界。
这当然是一类风险。
Hinton和Bengio的许多担忧,也确实围绕着更强AI的控制、欺骗、对齐和社会治理展开。
但LeCun提醒我们的,是另一类风险:
AI未必已经非常聪明。
但它已经足够有用。
足够有用,就会被接进真实流程。
接进IDE。
接进浏览器。
接进办公系统。
接进客服后台。
接进数据库。
接进机器人。
接进工厂、医院、金融系统和政务流程。
这时,风险不一定来自"它有了自己的邪恶意志"。
风险也可能来自:
它不知道自己不知道什么。
它没有稳定的常识边界。
它没有可靠的后果模型。
它把一个看似合理的prompt,当成了真实任务。
它在训练分布里学会了"像是在完成任务",但在新场景里并没有真正理解任务完成意味着什么。
这就是LeCun说LLM作为Agent不安全的深层意思。
不是因为LLM一定会作恶。
而是因为现在的LLM很难保证:
第一,它真正理解任务目标。
第二,它能预测行动后果。
第三,它能在行动前检查约束。
第四,它能在分布外场景里保持可靠。
第五,它能把"看起来像完成"区分于"真的完成"。
在聊天窗口里,这些问题还可以被人兜底。
但一旦它开始行动,兜底成本就变高了。
所以,真正的问题不是:
而是:
这句话比"AI统治世界"更近。
也更容易被低估。
在三个人里,Bengio的位置很有意思。
他既不像LeCun那样对当前LLM的现实智能路径保持强烈怀疑,也不像许多末日论叙事那样只谈不可控超级智能。
他最近几年越来越强调一个方向:
我们需要一种更可信、更可解释、更少自主目标的AI。
LawZero提出的Scientist AI,就是这个思路的代表。
它的基本精神是:
让AI更像一个帮助人类理解世界的科学家,而不是一个自己追求目标、自己行动、自己扩张影响力的代理。
这和LeCun的世界模型并不完全一样。
但两者之间有一个共同点:
它们都不满足于"更大的聊天机器人"。
Bengio担心的是,如果一个AI系统越来越agentic,越来越会规划、会欺骗、会为了目标而行动,我们就必须提前解决对齐和控制问题。
LeCun担心的是,如果一个AI系统其实还不会可靠规划、不会理解物理后果,却已经被包装成Agent,我们同样会遇到安全问题。
一个担心它太会行动。
一个担心它不会行动却被要求行动。
表面相反,底层其实相连。
他们都在提醒我们:
一个只会回答问题的模型,风险主要在信息层。
一个能调用工具的Agent,风险进入操作层。
一个能控制机器人的模型,风险进入物理层。
一个能影响市场、医疗、能源、军工和政治传播的系统,风险进入社会层。
同一个模型,放在不同权限结构里,风险完全不同。
这也是为什么我觉得"AI性格""AI推理""AI Agent""世界模型"其实正在汇合。
AI性格,是偏好结构。
AI推理,是内部轨迹结构。
AI Agent,是观察和行动的循环结构。
世界模型,是行动前的后果结构。
未来真正重要的,不只是模型本身。
而是模型被放进了什么结构。
这期访谈里还有一个很强的新闻钩子:LeCun离开Meta,创办AMI Labs。
如果只把它写成"科学家创业",就太浅了。
更值得注意的是,它背后是一场路线选择。
Meta过去几年在Llama上押得很重。Llama的开放,确实极大推动了开源AI生态。很多创业公司、研究者、开发者,都是在Llama系列模型基础上做出后续工作的。
LeCun在访谈里也澄清了一个容易误解的细节:
他说自己对Llama没有技术贡献。
他的主要影响,是在内部推动Llama 2开源。
这个细节很重要。
它说明LeCun并不是反对LLM,也不是反对开源模型。恰恰相反,他理解LLM的产业价值,也支持开放生态。
但他认为,LLM不是下一代现实智能的最终蓝图。
从他的角度看,大公司一旦进入产品竞赛,就会自然地把资源集中到当下最能变现、最能追赶对手、最能交付季度结果的方向上。
这很合理。
公司不是大学。
但问题是,真正的新范式,往往需要在"还没被证明能赚钱"的时候被长期下注。
LeCun把AMI Labs放在巴黎,而不是硅谷,也有象征意义。
他在访谈里批评硅谷的羊群效应:所有人都在挖同一条沟。
这句话当然有个人风格,但背后有一个真实问题:
当整个行业都在追逐同一种benchmark、同一种产品形态、同一种聊天界面、同一种scaling路线时,谁来探索下一条路?
他还用了一个很有意思的历史类比:
OpenAI、Anthropic这样的闭源模型公司,可能像当年的Sun Microsystems。
当年互联网基础设施早期,有很多专有Unix、专有硬件、专有服务器系统。后来,Linux和开源软件基础设施把它们大面积替代。
这个类比不一定会完全成真。
但它提醒我们:AI产业的终局,未必是几个闭源大模型公司永远垄断智能入口。
如果AI真的是基础设施,它大概率会出现开放、分布式、本地化、主权化的力量。
这也接上了LeCun访谈里的另一个项目:Tapestry。
他的想法是,未来每个人的信息饮食都会被AI助手中介。那如果全世界都用少数美国西海岸公司或中国公司训练出的AI助手,语言、文化、价值观、政治倾向都会被集中塑形。
所以,很多国家会想要自己的AI主权。
这个判断和我们之前写的数据墙、小模型、端侧AI、开源闭源之争,都能接起来。
但在这篇文章里,我只想保留一个重点:
LeCun离开Meta,不只是一个人的职业选择。
它象征着一个问题:
在大公司内部?
在新创业公司?
在大学?
在开源社区?
还是在那些不想把文化和数据全部交给少数平台的国家与行业里?
这不是八卦。
这是范式切换前夜常见的结构。
现在,我们可以回到开头那三个人。
Hinton、Bengio、LeCun,看起来像是在争论AI到底危不危险。
但更准确地说,他们在看不同时间尺度、不同系统形态、不同风险