Sora之后,AI如何悄悄学会物理直觉
大家好,我是万象大叔。
专注 AI,讲透技术,看清产业,商业落地,投资赚钱。
当AI从生成静态图像进化到产出动态视频时,一个更深的疑问浮现:模型在构建视频时,是否悄然掌握了现实世界运行的底层规则?
OpenAI的Sora凭借其视频在物理逻辑上的高度一致性,让“世界模型”这一曾局限于机器人与强化学习领域的概念,成为AI前沿的焦点。
这揭示了一条清晰的技术跃迁:AI正从学习“词与词的关联”转向理解“状态与状态的演化”。其核心逻辑在于,预测视频下一帧的“时空块”这一看似简单任务,实则迫使模型构建一个隐含的、模拟物体存在、运动与交互的内部机制。
这并非意味着AI已掌握如F=ma般的数学公式,而是表明:通过海量视频中时空模式的压缩与归纳,AI能逼近物理规律的“表现形式”,完成从“读懂文字”到“感知世界”的关键跨越。
传统大语言模型的目标是“预测下一个词”,本质是学习语言符号的概率分布;而世界模型的核心是“预测下一状态”,本质是学习物理或抽象状态在时空中的演化规律。
Sora的架构显示:其采用“时空块”表示法,将视频切分为连续的时空单元,并基于扩散Transformer训练。这一设计的精髓在于,将视频的时空结构统一为序列预测问题,使Transformer能直接建模动态变化。当模型填补缺失块或生成后续块时,必须推断被遮挡物体的形态、轨迹及其与环境的互动关系。
“理解”的间接证据:Sora生成的视频中,物体行为展现出惊人合理性,例如:
物体持久性与三维稳定:物体移动、旋转或被遮挡后重现时,其形态与材质保持一致。
基础物理效应的模拟:液体飞溅、头发飘动、碰撞形变等,均符合日常直觉。
世界状态的因果延续:沙滩上的脚印不会消失,咬过的汉堡缺口不会自动愈合。
这些现象表明,模型并非仅做像素插值,而是在中间层进行“物理推理”,生成符合现实经验的状态演变。
Sora的突破在于,它证明了仅通过大规模无监督预测,即可从高维视频数据中“涌现”出对物理常识的近似掌握,无需人工编码物理规则。
内隐知识 vs 外显知识:Sora内部没有存储任何物理公式,它拥有的是内隐知识——一种通过海量数据训练后,在神经权重中形成的、将初始状态映射为合理后续状态的复杂函数。当输入“玻璃杯从桌面跌落”时,它能生成下落、撞击、碎裂的序列,因其“见过”类似统计模式并内化为生成能力。这种机制与婴儿通过观察习得的物理直觉高度相似。
从“关联”到“仿真”的跃迁:传统图形学依赖显式建模几何、材质与力,通过数值求解生成画面;Sora则反其道而行:从观测视频中逆向推导产生这些画面的潜在规律,构建一种“神经仿真器”——其仿真基于前向网络计算,而非微分方程求解。虽不精确,且在复杂场景易出错,但它验证了纯数据驱动逼近物理过程的可行性。
必须清醒:当前视频预测型世界模型,与真正理解物理定律仍有本质差距。
“纸片世界”与精确仿真:Sora的物理效果是“看起来合理”,而非精确守恒。动量、能量未必守恒,多体碰撞或流体湍流中常出错。它更像经验丰富的动画师凭直觉创作,而非物理引擎做可验证计算。
逻辑与抽象关系的缺失:物理不仅关乎运动,更涉及所有权、功能、社会规则。模型能学会“东西会掉”,却难理解“杯子是我的,碎了我会伤心”。世界模型需延伸至心理与社会维度,融合语言、动机与价值观。
因果与反事实推理的瓶颈:理解物理的核心是掌握因果机制,并能想象“若当时接住,杯子就不会碎”。当前模型主要依赖关联预测,对“干预”和“假设替代”的能力极其有限,这是“模式匹配”与“因果理解”的分水岭。
Sora是迈向完整世界模型的重要一步,但下一步需突破被动观测。
具身交互与行动数据:真正的物理理解离不开“行动-反馈”体验。未来训练需融入机器人与智能体的交互数据(动作、感知、环境变化),唯有通过主动改变世界,模型才能内化“因果关系”,区分相关与因果。
多模态感知融合:物理状态由视觉、听觉、触觉、力觉共同定义。更强的世界模型应能融合多模态信号,预测动作引发的综合后果,如敲击不同材质发出的不同声响与震动。
抽象表征与符号接地:终极目标是建立分层可解释表征——底层为感官信号,高层为离散概念(如“物体”“弹性”“易碎”)。如何连接神经网络的隐式表征与可推理的符号系统,是实现逻辑对话的关键。
科学发现工具:当世界模型足够精准,它可成为科研助手。研究者可提问“若重力常数改变,世界会如何?”或让模型在模拟中发现新规律,加速基础科学突破。
Sora之后,我们不再问“AI是否懂物理”,而应问:“它懂到什么程度?我们如何帮它懂更深、更真?”视频预测作为世界模型的雏形,证实了从感官数据中“涌现”物理常识是可行路径。
这项进展的根本价值,在于为构建具备基础物理直觉的通用AI铺路。未来的AI,将不再是符号处理的“文员”,而是能“想象运动”“预判后果”“在复杂环境中规划”的思维体。这不仅是生成更真视频的技术,更是通向真正理解我们世界的智能系统的基石。世界模型,正成为下一代AI不可或缺的“常识引擎”。