标签

复旦苏昊:AI 想统治世界,先学会理解物理

发布时间:2026-05-31 19:02来源:微信阅读:4

ChatGPT 既能赋诗,也能解题,还能与你探讨哲学。

可若让它将桌上的杯子向前推一推——它竟连“杯子是否会倾倒”都无从知晓。

这并非刻意抹黑人工智能。

5 月 27 日,复旦大学新任通用物理智能研究院院长苏昊教授,在校庆报告会上提出了这一难题。

这是一个令当下所有大模型集体失语的问题。

而他给出的结论更引人深思:

“AI 的下一座里程碑,不在于更擅长言语,而在于理解物理世界。”

过去十年,AI 领域经历了怎样的变迁?

2012 年,ImageNet 让机器学会了视觉感知

2022 年,ChatGPT 让机器学会了语言表达

2023 年,Sora 让机器学会了图像生成

看似一路高歌猛进,对吧?

但这其实始终在同一维度循环。

苏昊教授将智能划分为四个层级,看看 AI 目前处于何处:

层级

能力

现状

感知智能

识别图像与文字

✅ 已攻克

空间智能

理解三维结构

⚠️ 完成一半

物理智能★

理解交互因果

❌ 几乎空白

行为智能

决策与规划

❌ 尚未起步

从第一层到第三层,并非差距微小,而是跨越了物种界限。

设想这样一个场景:桌上放着两个大小相近的纸箱,你需要将其中一个搬到旁边的台面上。伸手之前,你的大脑已在零点几秒内完成判断:

是否沉重?表面是否光滑?结构是否稳固?

你甚至未曾察觉自己在进行这些思考。正如婴儿尚未学会说话,便已知晓松手积木会坠落、推球会滚动。

这种能力,当今最先进的 AI——尚无法具备。

它能识别出那是纸箱。却无法感知拿起的触感,也不知该施加多大力量。

“物理理解的本质,不在于‘看见了什么’,而在于‘如果我采取行动,会发生什么’。——苏昊”

这句话,值得反复研读三遍。

大模型为何强大?源于数万亿字文本的训练。文生图为何出色?得益于数十亿张图片的熏陶。但物理交互数据呢?

无人将“推杯的触感”“开门的阻力”“搬箱的重量”记录并上传至网络。

对人类而言这是本能,无需刻意记录。结果便是——训练物理智能所需的数据,本质上尚不存在。

苏昊直接点破了两类主流模型的致命弱点:

几何世界模型:知晓杯子的位置与形态,却不知其是否会倾倒

视频世界模型:看似在预测未来,实则是在进行像素拼接

都无法回答:“若施加两倍力量,结果有何不同?”因为训练数据中,根本不存在“力”这一概念。真正急需的——物理交互世界模型——仍处于襁褓阶段。

苏昊团队揭示了一个令人背脊发凉的事实:

门阻尼仅变化 20%,训练过百万次的机器人策略便彻底失效。

学到的并非“如何开门”,而是“如何开启这扇特定的门”。一旦更换门扇,便无法操作。

并非泛化能力不足,而是根本未掌握可泛化的知识。

接下来这一点,是整场演讲最具冲击力的部分:

在自然界中,理解物理规律的能力极为稀缺。仅有两类动物具备:鸦科(如乌鸦、喜鹊)和类人猿(如猩猩、黑猩猩)。

狗能看见球滚来,却不理解“推=滚动”的因果关系。乌鸦则不同——向瓶中投石以提升水位饮水,它理解体积排液的物理原理。黑猩猩用树枝钓取白蚁,它理解工具、目标与力学链条的关系。

物理智能是一道认知天堑。唯有跨越者,方能运用工具、创造文明。如今的 AI,正伫立在这道门前。

用四个字概括:谨慎乐观。

“在大语言模型这一轮,中国是追赶者。但在物理智能领域——全球皆在起跑线上。”

细细品味这句话的分量。大模型赛道,由 OpenAI 制定规则,我们跟随奔跑。物理智能赛道,规则尚未确立。谁都有机会成为执笔人。

此外,中国手握三张王牌:

王牌

重要性

产业链

全球最大工业机器人市场,验证场景就在身边

数据采集

众多工厂可作为真实机器人试验场

人才回流

苏昊归国仅是开端

“短期内达到大语言模型的泛化水平,尚不现实。”

叠衣物、烹饪的视频固然精彩。但演示 Demo 与通用能力之间,差距巨大。方向正确,但路途漫长。

交叉· 交互 · 验证

交叉— 数学 + 物理 + 计算机 + 脑科学 + 控制论,打破院系壁垒

交互— 必须亲身触碰,仿真与真实验证双轨并行

验证— 无法通过真实世界检验 = 零分

一言以蔽之:拒绝闭门造车,走向真实世界去碰撞。

演讲结尾的两句金句,建议直接截图珍藏

“没有理解,便无泛化。”

单纯堆砌算力、参数所造就的“突破”,本质上是统计相关性。因此大模型的幻觉问题至今无解。

“没有交互,便无理解。”

理解不能仅靠“阅读”,必须靠“触碰”。不仅 AI 如此,人类亦然。

你认为 AI 何时才能真正理解物理世界?A. 3 年内 B. 5 年内 C. 10 年以上

觉得有所启发?点个「在看」,转发给更多人阅读~