复旦苏昊:AI 想统治世界,先学会理解物理
ChatGPT 既能赋诗,也能解题,还能与你探讨哲学。
可若让它将桌上的杯子向前推一推——它竟连“杯子是否会倾倒”都无从知晓。
这并非刻意抹黑人工智能。
5 月 27 日,复旦大学新任通用物理智能研究院院长苏昊教授,在校庆报告会上提出了这一难题。
这是一个令当下所有大模型集体失语的问题。
而他给出的结论更引人深思:
“AI 的下一座里程碑,不在于更擅长言语,而在于理解物理世界。”
过去十年,AI 领域经历了怎样的变迁?
2012 年,ImageNet 让机器学会了视觉感知
2022 年,ChatGPT 让机器学会了语言表达
2023 年,Sora 让机器学会了图像生成
看似一路高歌猛进,对吧?
但这其实始终在同一维度循环。
苏昊教授将智能划分为四个层级,看看 AI 目前处于何处:
层级
能力
现状
感知智能
识别图像与文字
✅ 已攻克
空间智能
理解三维结构
⚠️ 完成一半
物理智能★
理解交互因果
❌ 几乎空白
行为智能
决策与规划
❌ 尚未起步
从第一层到第三层,并非差距微小,而是跨越了物种界限。
设想这样一个场景:桌上放着两个大小相近的纸箱,你需要将其中一个搬到旁边的台面上。伸手之前,你的大脑已在零点几秒内完成判断:
是否沉重?表面是否光滑?结构是否稳固?
你甚至未曾察觉自己在进行这些思考。正如婴儿尚未学会说话,便已知晓松手积木会坠落、推球会滚动。
这种能力,当今最先进的 AI——尚无法具备。
它能识别出那是纸箱。却无法感知拿起的触感,也不知该施加多大力量。
“物理理解的本质,不在于‘看见了什么’,而在于‘如果我采取行动,会发生什么’。——苏昊”
这句话,值得反复研读三遍。
大模型为何强大?源于数万亿字文本的训练。文生图为何出色?得益于数十亿张图片的熏陶。但物理交互数据呢?
无人将“推杯的触感”“开门的阻力”“搬箱的重量”记录并上传至网络。
对人类而言这是本能,无需刻意记录。结果便是——训练物理智能所需的数据,本质上尚不存在。
苏昊直接点破了两类主流模型的致命弱点:
几何世界模型:知晓杯子的位置与形态,却不知其是否会倾倒
视频世界模型:看似在预测未来,实则是在进行像素拼接
都无法回答:“若施加两倍力量,结果有何不同?”因为训练数据中,根本不存在“力”这一概念。真正急需的——物理交互世界模型——仍处于襁褓阶段。
苏昊团队揭示了一个令人背脊发凉的事实:
门阻尼仅变化 20%,训练过百万次的机器人策略便彻底失效。
学到的并非“如何开门”,而是“如何开启这扇特定的门”。一旦更换门扇,便无法操作。
并非泛化能力不足,而是根本未掌握可泛化的知识。
接下来这一点,是整场演讲最具冲击力的部分:
在自然界中,理解物理规律的能力极为稀缺。仅有两类动物具备:鸦科(如乌鸦、喜鹊)和类人猿(如猩猩、黑猩猩)。
狗能看见球滚来,却不理解“推=滚动”的因果关系。乌鸦则不同——向瓶中投石以提升水位饮水,它理解体积排液的物理原理。黑猩猩用树枝钓取白蚁,它理解工具、目标与力学链条的关系。
物理智能是一道认知天堑。唯有跨越者,方能运用工具、创造文明。如今的 AI,正伫立在这道门前。
用四个字概括:谨慎乐观。
“在大语言模型这一轮,中国是追赶者。但在物理智能领域——全球皆在起跑线上。”
细细品味这句话的分量。大模型赛道,由 OpenAI 制定规则,我们跟随奔跑。物理智能赛道,规则尚未确立。谁都有机会成为执笔人。
此外,中国手握三张王牌:
王牌
重要性
产业链
全球最大工业机器人市场,验证场景就在身边
数据采集
众多工厂可作为真实机器人试验场
人才回流
苏昊归国仅是开端
“短期内达到大语言模型的泛化水平,尚不现实。”
叠衣物、烹饪的视频固然精彩。但演示 Demo 与通用能力之间,差距巨大。方向正确,但路途漫长。
交叉· 交互 · 验证
交叉— 数学 + 物理 + 计算机 + 脑科学 + 控制论,打破院系壁垒
交互— 必须亲身触碰,仿真与真实验证双轨并行
验证— 无法通过真实世界检验 = 零分
一言以蔽之:拒绝闭门造车,走向真实世界去碰撞。
演讲结尾的两句金句,建议直接截图珍藏
“没有理解,便无泛化。”
单纯堆砌算力、参数所造就的“突破”,本质上是统计相关性。因此大模型的幻觉问题至今无解。
“没有交互,便无理解。”
理解不能仅靠“阅读”,必须靠“触碰”。不仅 AI 如此,人类亦然。
你认为 AI 何时才能真正理解物理世界?A. 3 年内 B. 5 年内 C. 10 年以上
觉得有所启发?点个「在看」,转发给更多人阅读~