物理智能：AI进化的下一个必争之地

发布时间：2026-05-31 17:29阅读：34

当GPT-4o能够实时对话、生成视频、理解复杂文本时，

许多人认为AI已经接近"理解"这个世界了。

然而复旦大学通用物理智能研究院首任院长苏昊，

在最新校庆演讲中提出了一个发人深省的问题：

当下的AI，甚至连推一下桌上杯子会产生什么后果都一无所知。

这并非耸人听闻，

而是人工智能领域最核心的未解难题。

过去数十年间，我们让机器掌握了"看"和"说"的本领，

却始终无法教会它"做"。

机器能够识别出这是一把椅子，

却不了解椅子的实际用途；

能够识别出这是一扇门，

却不知道需要多大的力气才能将其推开；

能够识别出这是一个纸箱，

却无法判断它的重量、是否会变形损坏。

为何"能够动手"比"能够说话"难度高出百倍？

苏昊教授借助皮亚杰的发展心理学框架，

清晰阐述了智能的四个层次：

-第一层：感知智能——识别图像

-第二层：空间智能——理解三维几何构造

-第三层：物理智能——把握物理交互与因果逻辑

-第四层：行为智能——执行决策与规划

颇为有趣的是，

苏昊教授十八年的研究轨迹，

恰好沿着这一序列推进。

从参与ImageNet解决感知难题，

到主导ShapeNet、PointNet攻克3D空间认知问题，

再到研发SAPIEN仿真器和ManiSkill平台解决物理交互难题。

每一步都是因为前一步存在无法突破的瓶颈，

才不得不向更深层次探索。

而物理智能之所以成为最难攻克的堡垒，

是因为它并非感知的简单升级，

而是一次认知层面的根本性跃迁。

在自然界中，

仅有鸦科和类人猿拥有这种能力——

乌鸦投石取水，

灵长类使用工具。

这表明物理认知是一种极为高级的智能形态。

更为关键的是，

物理认知无法从互联网数据中习得。

即便观看一万小时他人骑自行车，

依然不会骑车；

即便研读一万本游泳教程，

依然会沉入水中。

物理认知必须通过主动交互才能获取，

在无数次触碰、握持、碰撞中锤炼而成。

而这恰恰是当前大模型最欠缺的能力。

所有机器人演示都是"外强中干"？

如今许多机器人演示看似惊艳——

折叠衣物、烹饪料理、整理房间。

但苏昊教授毫不客气地指出：

这些演示与真正的通用能力之间，

横亘着关键的鸿沟。

一扇门的关节阻尼仅改变20%，

经过上百万次训练的机器人操作策略，

就可能完全失效。

为何如此？

因为模型习得的并非门的物理规律，

而是在机械地、简单地复制动作。

它不明白为何要这样推，

不知道力度不同会产生何种差异，

更不知道遇到阻碍时该如何应对。

这正是当前AI的致命软肋：

缺乏理解，就无法泛化。

它只能在训练过的特定场景中运作，

一旦环境发生细微变化，

就会彻底崩溃。

而人类的物理直觉具有普遍性——

我们首次遇到任何类型的门，

都能大致判断该如何开启。

突破之道：第三种世界模型

那么，怎样才能让机器真正理解物理世界？

苏昊教授给出了明确的答案：

我们需要一种全新的世界模型——

物理交互世界模型。

过去两年，世界模型主要有两个发展方向：

-几何世界模型：擅长空间理解，但缺乏物理认知

-视频世界模型：擅长视觉生成，但本质上只是像素层面的预测

这两类模型都无法回答那个最基本的问题：

推一下杯子会怎样？

用双倍力气推又会怎样？

因为它们都缺少真正的物理层面的理解。

而物理交互世界模型，

既懂得空间，又懂得物理规律，

能够预测任何动作带来的物理后果。

这才是具身智能真正需要的"物理常识"。

谁能率先构建出这样的模型，

谁就有可能定义下一代人工智能的范式。

中国的历史性机遇：从跟随到引领

在大语言模型这一波浪潮中，

坦诚地讲，中国是追赶者。

但在物理智能领域，

全球都处于起跑阶段，

核心问题尚未被攻克。

这赋予了中国一次难得的机遇——

从跟随到引领，

定义下一代AI的范式。

中国拥有其他国家难以比拟的优势：

-完整的产业链能力：从机器人硬件到软件生态

-丰富的应用场景：制造业、服务业、养老行业

-多学科交叉的科研环境：复旦等高校的深厚根基

苏昊教授选择在2026年4月回国，

加入复旦大学，

正是洞察到了这一历史性机遇。

他领导的通用物理智能研究院，

将围绕"交叉、交互、验证"三个核心词，

推动物理智能的最终实现。

核心观点梳理

✅ AI的下一个里程碑：不是更会说话，而是理解物理世界

✅物理理解的本质：给定一个动作，预测它所带来的物理后果

✅当前AI的致命缺陷：只会模仿，不会理解，没有泛化能力

✅突破关键：构建物理交互世界模型

✅中国机遇：全球都在同一起跑线，我们有机会定义范式

结语：没有交互，就没有理解

苏昊教授用两句话，

总结了他二十余年人工智能研究生涯最深的体会：

没有理解，就没有泛化；

没有交互，就没有理解。

这不仅是对AI发展规律的深刻洞察，

也是对整个行业的警示。

我们不能再沉迷于"会说话"的AI带来的虚假繁荣，

而应该把目光投向更本质、更基础的问题——

让机器真正理解物理世界。

AI的下一个里程碑，

不是更会说话，

而是会"动手"。

当机器能够像人类一样，

通过与世界的交互获得理解，

真正的通用人工智能才会到来。

而我们，

正站在这个历史的转折点上。

互动话题：你觉得物理智能会在什么时候迎来重大突破？5年内？10年内？还是更久？欢迎在评论区留下你的预测和理由！

觉得文章有启发，别忘了点赞、在看、转发给身边对AI感兴趣的朋友～

← 上一篇：企业AI落地困局：为何80%的企业投入后未见回报？下一篇：深化人工智能应用，数智驱动油区安全升级 →