物理智能:AI进化的下一个必争之地
当GPT-4o能够实时对话、生成视频、理解复杂文本时,
许多人认为AI已经接近"理解"这个世界了。
然而复旦大学通用物理智能研究院首任院长苏昊,
在最新校庆演讲中提出了一个发人深省的问题:
当下的AI,甚至连推一下桌上杯子会产生什么后果都一无所知。
这并非耸人听闻,
而是人工智能领域最核心的未解难题。
过去数十年间,我们让机器掌握了"看"和"说"的本领,
却始终无法教会它"做"。
机器能够识别出这是一把椅子,
却不了解椅子的实际用途;
能够识别出这是一扇门,
却不知道需要多大的力气才能将其推开;
能够识别出这是一个纸箱,
却无法判断它的重量、是否会变形损坏。
为何"能够动手"比"能够说话"难度高出百倍?
苏昊教授借助皮亚杰的发展心理学框架,
清晰阐述了智能的四个层次:
-第一层:感知智能——识别图像
-第二层:空间智能——理解三维几何构造
-第三层:物理智能——把握物理交互与因果逻辑
-第四层:行为智能——执行决策与规划
颇为有趣的是,
苏昊教授十八年的研究轨迹,
恰好沿着这一序列推进。
从参与ImageNet解决感知难题,
到主导ShapeNet、PointNet攻克3D空间认知问题,
再到研发SAPIEN仿真器和ManiSkill平台解决物理交互难题。
每一步都是因为前一步存在无法突破的瓶颈,
才不得不向更深层次探索。
而物理智能之所以成为最难攻克的堡垒,
是因为它并非感知的简单升级,
而是一次认知层面的根本性跃迁。
在自然界中,
仅有鸦科和类人猿拥有这种能力——
乌鸦投石取水,
灵长类使用工具。
这表明物理认知是一种极为高级的智能形态。
更为关键的是,
物理认知无法从互联网数据中习得。
即便观看一万小时他人骑自行车,
依然不会骑车;
即便研读一万本游泳教程,
依然会沉入水中。
物理认知必须通过主动交互才能获取,
在无数次触碰、握持、碰撞中锤炼而成。
而这恰恰是当前大模型最欠缺的能力。
所有机器人演示都是"外强中干"?
如今许多机器人演示看似惊艳——
折叠衣物、烹饪料理、整理房间。
但苏昊教授毫不客气地指出:
这些演示与真正的通用能力之间,
横亘着关键的鸿沟。
一扇门的关节阻尼仅改变20%,
经过上百万次训练的机器人操作策略,
就可能完全失效。
为何如此?
因为模型习得的并非门的物理规律,
而是在机械地、简单地复制动作。
它不明白为何要这样推,
不知道力度不同会产生何种差异,
更不知道遇到阻碍时该如何应对。
这正是当前AI的致命软肋:
缺乏理解,就无法泛化。
它只能在训练过的特定场景中运作,
一旦环境发生细微变化,
就会彻底崩溃。
而人类的物理直觉具有普遍性——
我们首次遇到任何类型的门,
都能大致判断该如何开启。
突破之道:第三种世界模型
那么,怎样才能让机器真正理解物理世界?
苏昊教授给出了明确的答案:
我们需要一种全新的世界模型——
物理交互世界模型。
过去两年,世界模型主要有两个发展方向:
-几何世界模型:擅长空间理解,但缺乏物理认知
-视频世界模型:擅长视觉生成,但本质上只是像素层面的预测
这两类模型都无法回答那个最基本的问题:
推一下杯子会怎样?
用双倍力气推又会怎样?
因为它们都缺少真正的物理层面的理解。
而物理交互世界模型,
既懂得空间,又懂得物理规律,
能够预测任何动作带来的物理后果。
这才是具身智能真正需要的"物理常识"。
谁能率先构建出这样的模型,
谁就有可能定义下一代人工智能的范式。
中国的历史性机遇:从跟随到引领
在大语言模型这一波浪潮中,
坦诚地讲,中国是追赶者。
但在物理智能领域,
全球都处于起跑阶段,
核心问题尚未被攻克。
这赋予了中国一次难得的机遇——
从跟随到引领,
定义下一代AI的范式。
中国拥有其他国家难以比拟的优势:
-完整的产业链能力:从机器人硬件到软件生态
-丰富的应用场景:制造业、服务业、养老行业
-多学科交叉的科研环境:复旦等高校的深厚根基
苏昊教授选择在2026年4月回国,
加入复旦大学,
正是洞察到了这一历史性机遇。
他领导的通用物理智能研究院,
将围绕"交叉、交互、验证"三个核心词,
推动物理智能的最终实现。
核心观点梳理
✅ AI的下一个里程碑:不是更会说话,而是理解物理世界
✅物理理解的本质:给定一个动作,预测它所带来的物理后果
✅当前AI的致命缺陷:只会模仿,不会理解,没有泛化能力
✅突破关键:构建物理交互世界模型
✅中国机遇:全球都在同一起跑线,我们有机会定义范式
结语:没有交互,就没有理解
苏昊教授用两句话,
总结了他二十余年人工智能研究生涯最深的体会:
没有理解,就没有泛化;
没有交互,就没有理解。
这不仅是对AI发展规律的深刻洞察,
也是对整个行业的警示。
我们不能再沉迷于"会说话"的AI带来的虚假繁荣,
而应该把目光投向更本质、更基础的问题——
让机器真正理解物理世界。
AI的下一个里程碑,
不是更会说话,
而是会"动手"。
当机器能够像人类一样,
通过与世界的交互获得理解,
真正的通用人工智能才会到来。
而我们,
正站在这个历史的转折点上。
互动话题:你觉得物理智能会在什么时候迎来重大突破?5年内?10年内?还是更久?欢迎在评论区留下你的预测和理由!
觉得文章有启发,别忘了点赞、在看、转发给身边对AI感兴趣的朋友~