标签

物理智能:AI进化的下一个必争之地

发布时间:2026-05-31 17:29来源:微信阅读:14

当GPT-4o能够实时对话、生成视频、理解复杂文本时,

许多人认为AI已经接近"理解"这个世界了。

然而复旦大学通用物理智能研究院首任院长苏昊,

在最新校庆演讲中提出了一个发人深省的问题:

当下的AI,甚至连推一下桌上杯子会产生什么后果都一无所知。

这并非耸人听闻,

而是人工智能领域最核心的未解难题。

过去数十年间,我们让机器掌握了"看"和"说"的本领,

却始终无法教会它"做"。

机器能够识别出这是一把椅子,

却不了解椅子的实际用途;

能够识别出这是一扇门,

却不知道需要多大的力气才能将其推开;

能够识别出这是一个纸箱,

却无法判断它的重量、是否会变形损坏。

为何"能够动手"比"能够说话"难度高出百倍?

苏昊教授借助皮亚杰的发展心理学框架,

清晰阐述了智能的四个层次:

-第一层:感知智能——识别图像

-第二层:空间智能——理解三维几何构造

-第三层:物理智能——把握物理交互与因果逻辑

-第四层:行为智能——执行决策与规划

颇为有趣的是,

苏昊教授十八年的研究轨迹,

恰好沿着这一序列推进。

从参与ImageNet解决感知难题,

到主导ShapeNet、PointNet攻克3D空间认知问题,

再到研发SAPIEN仿真器和ManiSkill平台解决物理交互难题。

每一步都是因为前一步存在无法突破的瓶颈,

才不得不向更深层次探索。

而物理智能之所以成为最难攻克的堡垒,

是因为它并非感知的简单升级,

而是一次认知层面的根本性跃迁。

在自然界中,

仅有鸦科和类人猿拥有这种能力——

乌鸦投石取水,

灵长类使用工具。

这表明物理认知是一种极为高级的智能形态。

更为关键的是,

物理认知无法从互联网数据中习得。

即便观看一万小时他人骑自行车,

依然不会骑车;

即便研读一万本游泳教程,

依然会沉入水中。

物理认知必须通过主动交互才能获取,

在无数次触碰、握持、碰撞中锤炼而成。

而这恰恰是当前大模型最欠缺的能力。

所有机器人演示都是"外强中干"?

如今许多机器人演示看似惊艳——

折叠衣物、烹饪料理、整理房间。

但苏昊教授毫不客气地指出:

这些演示与真正的通用能力之间,

横亘着关键的鸿沟。

一扇门的关节阻尼仅改变20%,

经过上百万次训练的机器人操作策略,

就可能完全失效。

为何如此?

因为模型习得的并非门的物理规律,

而是在机械地、简单地复制动作。

它不明白为何要这样推,

不知道力度不同会产生何种差异,

更不知道遇到阻碍时该如何应对。

这正是当前AI的致命软肋:

缺乏理解,就无法泛化。

它只能在训练过的特定场景中运作,

一旦环境发生细微变化,

就会彻底崩溃。

而人类的物理直觉具有普遍性——

我们首次遇到任何类型的门,

都能大致判断该如何开启。

突破之道:第三种世界模型

那么,怎样才能让机器真正理解物理世界?

苏昊教授给出了明确的答案:

我们需要一种全新的世界模型——

物理交互世界模型。

过去两年,世界模型主要有两个发展方向:

-几何世界模型:擅长空间理解,但缺乏物理认知

-视频世界模型:擅长视觉生成,但本质上只是像素层面的预测

这两类模型都无法回答那个最基本的问题:

推一下杯子会怎样?

用双倍力气推又会怎样?

因为它们都缺少真正的物理层面的理解。

而物理交互世界模型,

既懂得空间,又懂得物理规律,

能够预测任何动作带来的物理后果。

这才是具身智能真正需要的"物理常识"。

谁能率先构建出这样的模型,

谁就有可能定义下一代人工智能的范式。

中国的历史性机遇:从跟随到引领

在大语言模型这一波浪潮中,

坦诚地讲,中国是追赶者。

但在物理智能领域,

全球都处于起跑阶段,

核心问题尚未被攻克。

这赋予了中国一次难得的机遇——

从跟随到引领,

定义下一代AI的范式。

中国拥有其他国家难以比拟的优势:

-完整的产业链能力:从机器人硬件到软件生态

-丰富的应用场景:制造业、服务业、养老行业

-多学科交叉的科研环境:复旦等高校的深厚根基

苏昊教授选择在2026年4月回国,

加入复旦大学,

正是洞察到了这一历史性机遇。

他领导的通用物理智能研究院,

将围绕"交叉、交互、验证"三个核心词,

推动物理智能的最终实现。

核心观点梳理

✅ AI的下一个里程碑:不是更会说话,而是理解物理世界

✅物理理解的本质:给定一个动作,预测它所带来的物理后果

✅当前AI的致命缺陷:只会模仿,不会理解,没有泛化能力

✅突破关键:构建物理交互世界模型

✅中国机遇:全球都在同一起跑线,我们有机会定义范式

结语:没有交互,就没有理解

苏昊教授用两句话,

总结了他二十余年人工智能研究生涯最深的体会:

没有理解,就没有泛化;

没有交互,就没有理解。

这不仅是对AI发展规律的深刻洞察,

也是对整个行业的警示。

我们不能再沉迷于"会说话"的AI带来的虚假繁荣,

而应该把目光投向更本质、更基础的问题——

让机器真正理解物理世界。

AI的下一个里程碑,

不是更会说话,

而是会"动手"。

当机器能够像人类一样,

通过与世界的交互获得理解,

真正的通用人工智能才会到来。

而我们,

正站在这个历史的转折点上。

互动话题:你觉得物理智能会在什么时候迎来重大突破?5年内?10年内?还是更久?欢迎在评论区留下你的预测和理由!

觉得文章有启发,别忘了点赞、在看、转发给身边对AI感兴趣的朋友~