复旦苏昊：AI 想统治世界，先学会理解物理

发布时间：2026-05-31 19:02阅读：12

ChatGPT 既能赋诗，也能解题，还能与你探讨哲学。

可若让它将桌上的杯子向前推一推——它竟连“杯子是否会倾倒”都无从知晓。

这并非刻意抹黑人工智能。

5 月 27 日，复旦大学新任通用物理智能研究院院长苏昊教授，在校庆报告会上提出了这一难题。

这是一个令当下所有大模型集体失语的问题。

而他给出的结论更引人深思：

“AI 的下一座里程碑，不在于更擅长言语，而在于理解物理世界。”

过去十年，AI 领域经历了怎样的变迁？

2012 年，ImageNet 让机器学会了视觉感知

2022 年，ChatGPT 让机器学会了语言表达

2023 年，Sora 让机器学会了图像生成

看似一路高歌猛进，对吧？

但这其实始终在同一维度循环。

苏昊教授将智能划分为四个层级，看看 AI 目前处于何处：

层级

能力

现状

感知智能

识别图像与文字

✅ 已攻克

空间智能

理解三维结构

⚠️ 完成一半

物理智能★

理解交互因果

❌ 几乎空白

行为智能

决策与规划

❌ 尚未起步

从第一层到第三层，并非差距微小，而是跨越了物种界限。

设想这样一个场景：桌上放着两个大小相近的纸箱，你需要将其中一个搬到旁边的台面上。伸手之前，你的大脑已在零点几秒内完成判断：

是否沉重？表面是否光滑？结构是否稳固？

你甚至未曾察觉自己在进行这些思考。正如婴儿尚未学会说话，便已知晓松手积木会坠落、推球会滚动。

这种能力，当今最先进的 AI——尚无法具备。

它能识别出那是纸箱。却无法感知拿起的触感，也不知该施加多大力量。

“物理理解的本质，不在于‘看见了什么’，而在于‘如果我采取行动，会发生什么’。——苏昊”

这句话，值得反复研读三遍。

大模型为何强大？源于数万亿字文本的训练。文生图为何出色？得益于数十亿张图片的熏陶。但物理交互数据呢？

无人将“推杯的触感”“开门的阻力”“搬箱的重量”记录并上传至网络。

对人类而言这是本能，无需刻意记录。结果便是——训练物理智能所需的数据，本质上尚不存在。

苏昊直接点破了两类主流模型的致命弱点：

几何世界模型：知晓杯子的位置与形态，却不知其是否会倾倒

视频世界模型：看似在预测未来，实则是在进行像素拼接

都无法回答：“若施加两倍力量，结果有何不同？”因为训练数据中，根本不存在“力”这一概念。真正急需的——物理交互世界模型——仍处于襁褓阶段。

苏昊团队揭示了一个令人背脊发凉的事实：

门阻尼仅变化 20%，训练过百万次的机器人策略便彻底失效。

学到的并非“如何开门”，而是“如何开启这扇特定的门”。一旦更换门扇，便无法操作。

并非泛化能力不足，而是根本未掌握可泛化的知识。

接下来这一点，是整场演讲最具冲击力的部分：

在自然界中，理解物理规律的能力极为稀缺。仅有两类动物具备：鸦科（如乌鸦、喜鹊）和类人猿（如猩猩、黑猩猩）。

狗能看见球滚来，却不理解“推=滚动”的因果关系。乌鸦则不同——向瓶中投石以提升水位饮水，它理解体积排液的物理原理。黑猩猩用树枝钓取白蚁，它理解工具、目标与力学链条的关系。

物理智能是一道认知天堑。唯有跨越者，方能运用工具、创造文明。如今的 AI，正伫立在这道门前。

用四个字概括：谨慎乐观。

“在大语言模型这一轮，中国是追赶者。但在物理智能领域——全球皆在起跑线上。”

细细品味这句话的分量。大模型赛道，由 OpenAI 制定规则，我们跟随奔跑。物理智能赛道，规则尚未确立。谁都有机会成为执笔人。

此外，中国手握三张王牌：

王牌

重要性

产业链

全球最大工业机器人市场，验证场景就在身边

数据采集

众多工厂可作为真实机器人试验场

人才回流

苏昊归国仅是开端

“短期内达到大语言模型的泛化水平，尚不现实。”

叠衣物、烹饪的视频固然精彩。但演示 Demo 与通用能力之间，差距巨大。方向正确，但路途漫长。

交叉· 交互 · 验证

交叉— 数学 + 物理 + 计算机 + 脑科学 + 控制论，打破院系壁垒

交互— 必须亲身触碰，仿真与真实验证双轨并行

验证— 无法通过真实世界检验 = 零分

一言以蔽之：拒绝闭门造车，走向真实世界去碰撞。

演讲结尾的两句金句，建议直接截图珍藏

“没有理解，便无泛化。”

单纯堆砌算力、参数所造就的“突破”，本质上是统计相关性。因此大模型的幻觉问题至今无解。

“没有交互，便无理解。”

理解不能仅靠“阅读”，必须靠“触碰”。不仅 AI 如此，人类亦然。

你认为 AI 何时才能真正理解物理世界？A. 3 年内 B. 5 年内 C. 10 年以上

觉得有所启发？点个「在看」，转发给更多人阅读～

← 上一篇：AI 浪潮下，你的职业安全吗？下一篇：AI CPU：性能跃迁新纪元 →