万亿押注“世界模型”：AI 新纪元与机器人未来

发布时间：2026-05-13 23:40阅读：38

近一年半以来，逾百亿美元资金涌向这一构想。Yann LeCun 告别 Meta 投身构建此类模型。Danijar Hafner——其 Dreamer 系列被视为基于模型的强化学习领域最具影响力的成果——离开 DeepMind 致力于商业化。NVIDIA 开源了全套技术栈。OpenAI 终止了 Sora 项目，将此举定义为转向“面向机器人的世界模拟”，随后团队负责人在三周内离职。

如今多数被称为“世界模型”的产品，实则并非真正的世界模型。该术语现已囊括视频生成器、强化学习梦境引擎、抽象表征学习器及动作预测基础模型。两个独立的研究流派近期交汇，催生了现今所称的“视频世界模型”。本文将阐述其演变过程，并探讨其实际成效。

两股趋势同时涌现。其一，交互式视频模型自2024年起便已存在（如Genie、GameNGen），但仅作为狭义原型。2025年，两项突破（AR-DiT 与 Self Forcing）使得构建通用、高质量且具备实时交互能力的视频基础模型成为可能。这一进展将视频世界模型从研究好奇对象转化为潜在的基础设施。

其二，机器人领域长期受困于数据匮乏，随着行业转向训练基础模型，这一饥渴状况愈发严峻。当前最先进的机器人基础模型仅基于约1万小时的遥操作数据训练。然而遥操作成本高昂、采集缓慢且多样性受限。世界模型提供了一条新路径：先在海量人类视频上进行预训练，再利用少量机器人数据进行微调。

然而，现实检验不可或缺。整体机器人 AI 的发展阶段远比资金规模所暗示的更为早期。目前大多数生产级部署采用的是视觉 - 语言 - 动作模型（VLA），而非纯粹的世界模型——尽管即便是领先的 VLA，如 Physical Intelligence 的 Pi-0.7，也开始集成小型世界模型以辅助子目标规划。世界模型在特定场景中展现出卓越成果——如 DreamDojo 近乎完美的策略评估、DreamGen 从极少量数据中的泛化能力——但通用操作仍是未解难题，无论采用何种技术路线。

现今所谓的“视频世界模型”源于两个独立的研究传统，二者并行发展数十年，直至2024至2025年间实现融合。

智能体应构建世界内部模型的理念早于深度学习。Kenneth Craik 于1943年在《解释的本质》中提出，人类在脑海中携带“小规模模型”以预测事件。1990年，Jürgen Schmidhuber 发表《使世界可微分》，将其形式化为神经网络：智能体应学习环境的可微分模型并用于规划。这一构想在此后近三十年间基本处于沉寂状态。

2018年，David Ha 与 Schmidhuber 通过一篇题为《世界模型》的论文及交互式网站 worldmodels.github.io 重燃了这一理念，让用户得以观察 AI 智能体的“梦境”。该架构包含三大模块：一个 VAE 将像素压缩为潜在向量，一个 MDN-RNN 在潜在空间中预测动态概率分布，以及一个完全在想象展开中训练的微型控制器。一个在自身梦境中训练的智能体，部署至现实后取得成功。无论是赛车游戏还是 VizDoom，均验证了概念可行性。

Danijar Hafner 随后耗时六年，采用不同架构构建了相同的构想。其 RSSM 架构（PlaNet，2019）融合了确定性记忆与随机不确定性，解决了根本的表征问题。Dreamer 系列从简单的连续控制（V1，2020）扩展至人类水平的 Atari 表现（V2，2021），再到在150多项基准测试中使用单一超参数集，包括从零开始在 Minecraft 中收集钻石（V3，发表于《自然》2025）。Dreamer 4（2025年末）以 Transformer 替换循环骨干，运行速度提升25倍。DayDreamer（2022）将其应用于真实机器人：一只四足机器人仅用一小时便从零学会了行走。

一个值得关注的分支：DeepMind 的 MuZero（2020）学习了一个仅预测奖励与价值、从不重建观测的世界模型。它仅建模与决策相关的内容，在未生成任何像素的情况下掌握了围棋、国际象棋及 Atari 游戏。这与 Dreamer 的哲学不同，后者利用观测重建作为训练信号，但核心理念一致：想象可能未来，选择最优动作。

这一传统做对了什么：核心理念。学习动态。想象未来。从想象而非昂贵的现实交互中训练策略。动作条件化。样本效率。这些构成了当今所有视频世界模型的概念基石。

它未能做到什么：跨环境泛化。Dreamer 智能体可在单一 Atari 游戏中达到人类水平，但学习新游戏需从头训练。模型规模较小（数百万参数），梦境是人类难以解读的抽象向量，且需数千个特定任务回合。理念正确，规模不足。

另一平行传统是从视频中学习。其发展分阶段推进，每一阶段都使视频更接近机器人学习的需求。

Oh 等人（2015）在 Atari 中展示了动作条件视频预测。Finn 等人（2016）在伯克利将其应用于真实机器人：训练模型预测动作后相机所见画面，再通过选择预测结果最接近目标的动作进行规划。该方法适用于简单推挤任务，但预测在数帧内即退化。过于模糊，时间跨度对复杂操作而言太短。

关键洞察发生转变。与其直接预测视频，不如利用人类视频学习可迁移至机器人任务的视觉表征。R3M（Nair 等人，2022）成为突破点：一个在 Ego4D 上预训练的视觉编码器，涵盖数千小时以自我为中心的人类烹饪、清洁及物体操作镜头。编码器学会将相机图像压缩为紧凑向量，捕捉物体身份、空间关系及抓取相关特征，同时忽略墙面颜色等无关细节。利用 R3M 特征的 Franka 机械臂仅凭20次演示便学会操作任务，远少于无预训练所需量。

同期，OpenAI 的 VPT（2022）证明互联网级视频预训练对学习动作有效：在7万小时 Minecraft YouTube 游戏视频上预训练的模型，经少量演示微调即可成为高效智能体。这是首个展示大规模未标记视频可引导复杂顺序任务中有效行为的系统。

EgoMimic（Kareer 等人，ICRA 2025）进一步推进：不再仅将人类视频用于表征，而是将其视为实际演示数据，在人类与机器人数据上共同训练统一策略。人类具身数据将任务性能提升34%至228%，超越仅机器人数据，并实现对新物体与场景的泛化。

然而即使这些方法亦有上限。更优表征与更多演示数据虽有帮助，但人类视频仅是策略的训练数据，而非可练习的模拟器。

质量突破源自扩散模型在视频领域的应用：Make-A-Video（Meta，2022）、Imagen Video（Google，2022）及其后续产品。扩散 Transformer 可大规模生成高质量、时间连贯的视频。

Sora（OpenAI，2024年2月）成为转折点。在海量互联网视频数据上训练，其生成的镜头似乎遵循物理定律：物体下落、光线散射、相机追踪令人信服。Google 的 Veo 紧随其后，质量相当。OpenAI 将 Sora 定位为“世界模拟器”。

但 Sora 并非交互式。它采用双向注意力机制：所有帧同时可见。无法在中途注入动作。它是一部电影，而非游戏。

该传统贡献了：证明人类视频包含可迁移的物理知识（R3M、VPT），大规模照片级真实感生成（Sora、Veo），以及源自互联网级数据的视觉多样性。

在融合之前未能做到：实时响应动作。支持机器人技术所需的闭环：行动、观察后果、反应。生成以特定动作为条件的视频，而非仅生成看似合理的视频。

各社区均需对方优势。强化学习具备动作条件却难以泛化。视频拥有规模与真实感却缺乏交互性。2024至2026年间的一系列工作弥合了这一鸿沟：

Genie（DeepMind，2024-2025）引入潜在动作模型：一种从未标记视频中学习交互式环境的方法。模型分析两帧连续画面，将“变化”压缩为小向量，在无动作标注下发现动作空间。Genie 1（2024年2月）为160×90分辨率、1 FPS 的概念验证。Genie 2（2024年12月）扩展至照片级真实感720p，持续10-60秒一致性。Genie 3（2025年8月）达24 FPS 的720p，一致性持续数分钟，尽管生成的是2D 帧（非3D 几何），运行成本约每小时100美元。

UniSim（Sherry Yang 等人，ICLR 2024杰出论文）反其道而行：完全在视频世界模型内训练强化学习策略，随后以81%成功率迁移至真实机器人。早期工作（SimPLe，2020）曾在 Atari 的学习视频模型内训练强化学习，但 UniSim 是首个使用高质量视频扩散模型并展示零样本迁移至现实世界机器人技术的系统。

Xun Huang 团队的两项技术突破消除了剩余障碍。AR-DiT / CausVid（CVPR 2025）使视频扩散模型具备自回归与因果特性，这是交互性的前提：非一次性生成所有帧，而是顺序生成每一帧，以过去帧及当前动作为条件。Self Forcing（NeurIPS 2025）继而解决速度问题，将35步去噪蒸馏至4步，首次在通用视频模型中实现实时交互式生成。

DreamGen（NVIDIA，2025年5月）证明视频世界模型可从极少量真实数据中解锁机器人泛化。方法：在少量真实机器人镜头（含手腕安装视角）上微调视频生成模型，再用语言指令提示其生成机器人执行从未尝试任务的合成视频。逆动力学模型从这些合成视频中提取电机指令，无需遥操作即可生成训练数据。一人形机器人仅凭一次拾取与放置演示，便在未见环境中执行了22种新行为。这是融合产生实际机器人价值的首个有力证据。

高潮：DreamDojo 与 DreamZero（NVIDIA，2026年2月）。DreamDojo：一个在44,711小时人类以自我为中心视频上预训练的视频基础模型，通过学习的潜在动作空间进行动作条件化，经 Self Forcing 蒸馏至实时，能评估机器人策略，与现实结果相关性达 r=0.995。DreamZero 更进一步，在单次前向传递中联合预测未来视频与机器人电机动作。

主要系统如何与这五大属性对比？

策略评估是机器人技术近期最明确的价值所在。DreamDojo 在其预测与现实世界策略成功率间实现 r=0.995 的皮尔逊相关性。实践中，这意味着可在世界模型内对20个候选策略排序，而非执行20次昂贵的现实试验，排序结果几乎与现实完美匹配。世界模型由此转变为测试环境——机器人行为的单元测试。

合成训练数据生成前景广阔，但边际价值尚不明朗。DreamGen（NVIDIA，2025）展示一人形机器人仅凭单次遥操作演示，在未见环境中执行22种新行为，利用视频世界模型生成的合成数据。但即便是构建这些系统的研究人员也承认改进有限：虽有收益，但非业界期待的戏剧性飞跃。问题在于合成视频数据是否提供足够信号，超越更多遥操作数据或更好增强带来的收益。

样本高效学习在受控环境中有效。DayDreamer（2022）展示一只四足机器人仅通过一小时现实交互便从零学会行走，因 Dreamer 世界模型可在每次真实尝试间想象数千次练习。但这尚未在生产环境中大规模验证。

直接机器人控制是最雄心勃勃的主张，亦最不成熟。DreamZero 在单次前向传递中预测未来视频与电机动作，在其自身评估中报告泛化能力优于 VLA 基线2倍。但这仅为一篇论文，来自构建团队，尚无独立复现。与此同时，VLA 持续快速发展：Pi-0.5（2025年9月）泛化至未见家庭，Pi-0.6（2025年11月）添加基于强化学习的自我改进，Pi-0.7（2026年4月）组合学习技能解决新任务。每隔数月即有新版本，能力更强。纯 VLA 方法更简单，目前经更多实战检验，尽管如后文所述，“VLA”与“世界模型”界限正逐渐模糊。

诚实的框架并非“VLA 有效，世界模型无效”。而是整体机器人 AI 比100亿美元资金所暗示的更为早期。导航与受限仓库拣选已可靠工作。烹饪演示在受控实验室中借助数十次特定任务演示有效（ALOHA/Sunday 在50次演示下炒虾成功率达90%），但每道新菜需新演示。无论何种方法，通用家庭操作、家具组装及接触丰富的灵巧任务仍未解决。

更深层次问题贯穿 VLA 与世界模型。迁移能力鲜被证实，绝不可假设。两种方法均纯视觉，缺失触觉、力反馈及本体感觉，这对操作至关重要。标准训练数据集（如 Open X-Embodiment）存在严重质量与多样性问题。模拟基准几近饱和，而现实世界零样本性能远远落后。

与此同时，VLA 方法并未停滞。Physical Intelligence 的 Pi-0.7（2026年4月）展示组合泛化，融合不同任务技能解决新问题。它通过混合相关训练经验片段，操作从未见过的空气炸锅。值得注意的是，Pi-0.7本身即为混合体：依赖由轻量级世界模型（基于 BAGEL 图像生成骨干）产生的子目标图像规划多阶段任务。即便是当今领先的 VLA 也集成了世界模型组件。两种方法并非真正竞争——它们正在融合。

问题不在于哪种方法获胜。而在于两者是否足够接近通用操作，使扩展能完成工作。世界模型社区的具体赌注：理解动态（通过视频预测）对于最困难剩余任务至关重要，这些任务中仅靠演示进行模式匹配已不足。此赌注看似合理，即便回报时间表不确定。

过去18个月，逾百亿美元已投入世界模型与机器人 AI 公司。资本揭示行业实际位置，而非论文宣称的应至之处。

资金分为四层：构建模拟器本身的纯世界模型公司（AMI Labs 10.3亿美元，World Labs 12.3亿美元，Runway 8.6亿美元+，Rhoda 4.5亿美元，Decart 1.53亿美元，Embo 1亿美元+）；使用世界模型作为组件的机器人基础模型公司（Skild 18.3亿美元，Physical Intelligence 11亿美元+，Figure 20亿美元+，Mind Robotics 6.15亿美元）；构建并开源基础设施的平台（NVIDIA、Google DeepMind）；以及大型科技公司的转型（OpenAI 的 Sora 后机器人努力、特斯拉、xAI）。

技术栈从 Cosmos Predict 2.5（视频基础模型，140亿参数，2亿视频片段）到 DreamDojo（动作条件世界模型，4.4万小时人类视频，r=0.995策略评估）到 DreamZero（联合视频 + 动作预测，未见任务零样本）到 EgoScale（缩放定律：人类视频小时数与机器人性能间 R²=0.9983）再到 GR00T N2（产品化机器人大脑，2026年底）。每一层均开源 Apache 2.0。

策略是物理 AI 的 CUDA：免费提供软件，销售硬件。DreamZero 以7Hz 运行，但仅限 Blackwell GB200。在 H100上无法实时。若每家机器人公司皆基于此技术栈构建，则均需 Blackwell。

对构建纯世界模型的初创公司而言，这是生存问题。DreamDojo 免费，且在4.4万小时视频上训练。“我们构建了世界模型”不再是护城河。差异化须来自 NVIDIA 缺乏的特定领域数据、更快推理或垂直整合至超越模型的产品。

并非所有人皆在构建视频世界模型。Yann LeCun 与 Saining Xie 通过 AMI Labs（10.3亿美元，史上最大欧洲种子轮）领导逆向赌注。论点为预测像素根本上是浪费——多数像素级细节与理解动态无关。JEPA（联合嵌入预测架构）将观测编码为抽象表征并直接预测未来表征，从不生成视频。与使用像素重建作为训练信号的 Dreamer 不同，JEPA 完全避免重建。

V-JEPA 2 在 LeCun 离职前于 Meta 开发，在超百万小时互联网视频上预训练，仅用62小时机器人数据微调。其在拾取放置任务上实现80%零样本成功率，未生成单帧视频。AMI Labs 现拥有10亿美元测试抽象预测是否优于像素预测。反驳论点：像素级预测或能捕获抽象表征遗漏的物理细节，且可观察模型预测内容。JEPA 预测则是人类无法检查的抽象向量。

NVIDIA 的开源技术栈为在该领域构建者提出真问题：何为可防御？观点认为存在多种不同机遇类型，各有不同赌注与时间范围。

前沿水平世界模型。最大胆赌注：构建优于 NVIDIA 的通用世界模型。AMI Labs 正以 JEPA 走此路，在抽象表征空间预测。Embo 采用与 Dreamer 谱系不同架构哲学。Dream Labs（由 NVIDIA GEAR Lab 的 Joel Jang 创立）基于 DreamGen 与 DreamDojo 工作线构建。Cosmos 与 DreamDojo 为新类别版本1。架构跨越式发展仍有空间，正如 OpenAI 在 DeepMind 多年早期工作后构建 ChatGPT。

垂直特定世界模型。NVIDIA 技术栈通用。一家专为外科机器人、仓库操作或食品准备构建世界模型的公司，拥有源自实际部署的专有数据，可开辟通用模型无法匹配的护城河。类比：彭博终端 vs. ChatGPT。两者皆处理语言，但彭博的领域数据与工作流集成使其对金融专业人士不可替代。是否有效取决于特定领域动态的重要性——外科接触力与仓库拣选确是通用视频模型可能无法捕获的不同物理机制。

镐与铲层。推理基础设施、评估平台、模拟至现实迁移工具、以自我为中心的视频数据管道。这些不如“我们构建了世界模型”迷人，但解决真实痛点：Genie 3 运行成本约每小时100美元，Odyssey 每用户需完整 H200，视频模型服务结构上昂贵。解决这些问题之公司在整个生态中捕获价值。风险：NVIDIA 拥有硬件，推理优化为快速发展的研究，很快被吸收至开源。

产品内的“世界模型”玩法。世界模型是垂直整合机器人产品的组件，而非产品本身的公司。最终客户为结果付费——折叠衣物、分类包裹、冲泡浓缩咖啡——而非为推理付费。模型是手段，机器人做有用工作才是产品。此为多数现有机器人公司路径（1X 自建世界模型，Figure 与 Skild 集成 Cosmos），但新进入者同时面临硬件 + 软件 + 市场推广。

运营 NVIDIA GEAR Lab 的 Jim Fan 为正在发生之事命名：大平行。机器人技术正逐步复制大语言模型剧本。世界模型是预训练阶段——学习模拟下一物理状态，如同 GPT 学习预测下一标记。动作微调将该模拟折叠至对真实机器人重要的薄片。强化学习承载最后一公里。同样三步配方在六年内将大语言模型从 GPT-3 带至 o1。

若此平行成立，我们已有系统——一小时内学会行走的机器人、可导航的视频模型、与现实结果匹配 r=0.995 的预测——即为物理 AI 的 GPT-2。这一切在三年前尚不存在。两个发展数十年之研究传统已融合为真正新事物：想象物理未来、实时响应动作并将知识从人类视频迁移至机器人的机器。

赌注能否兑现取决于梦见世界对最困难操作任务是否重要——那些仅靠足够例子尚不足、需预测推、拉、扭转时发生何事的任务。我们认为会。时间表不如100亿美元暗示的确定。但借用 Jim Fan 之言：我们这一代出生太晚无法探索地球，出生太早无法探索星辰。我们或许正赶上教机器将物理世界梦想成存在。

Schmidhuber, J. (1990). Making the World Differentiable. 技术报告 FKI-126-90，慕尼黑工业大学。

Craik, K. (1943). 《解释的本质》。剑桥大学出版社。

Oh, J. 等人（2015）。Atari 游戏中使用深度网络的动作条件视频预测。NeurIPS 2015。

Finn, C., Goodfellow, I. & Levine, S.（2016）。通过视频预测进行物理交互的无监督学习。NeurIPS 2016。

Ha, D. & Schmidhuber, J.（2018）。世界模型。NeurIPS 2018。

Hafner, D. 等人（2019）。从像素学习潜在动态以进行规划。ICML 2019。（PlaNet）

Schrittwieser, J. 等人（2020）。通过使用学习模型进行规划来掌握 Atari、围棋、国际象棋和将棋。《自然》。（MuZero）

Hafner, D. 等人（2020）。梦想控制：通过潜在想象学习行为。ICLR 2020。（Dreamer V1）

Hafner, D. 等人（2021）。使用离散世界模型掌握 Atari。ICLR 2021。（DreamerV2）

Nair, S. 等人（2022）。R3M：机器人操作的通用视觉表示。CoRL 2022。

Kareer, S. 等人（2025）。EgoMimic：通过以自我为中心的视频扩展模仿学习。ICRA 2025。

Baker, B. 等人（2022）。视频预训练（VPT）：通过观看未标记的在线视频学习行动。NeurIPS 2022。

Wu, P. 等人（2022）。DayDreamer：物理机器人学习的世界模型。CoRL 2022。

LeCun, Y.（2022）。通往自主机器智能的道路。OpenReview。

Hafner, D. 等人（2025）。通过世界模型掌握多样化领域。《自然》。（DreamerV3）

Bruce, J. 等人（2024）.Genie：生成式交互环境。ICML 2024。（Genie 1）

Yang, S. 等人（2024）。学习交互式现实世界模拟器。ICLR 2024杰出论文。（UniSim）

Valevski, D. 等人（2024）。扩散模型是实时游戏引擎。（GameNGen）

Yin, T., Huang, X. 等人（2025）。从慢速双向到快速自回归视频扩散模型。CVPR 2025。（AR-DiT / CausVid）

Huang, X. 等人（2025）.Self Forcing.NeurIPS 2025。

Hafner, D. & Yan, W.（2025）。在可扩展世界模型内训练智能体。（Dreamer 4）

Jang, J. 等人（2025）。DreamGen：通过视频世界模型解锁机器人学习中的泛化。CoRL 2025。

Gao, S., Liang, W. 等人（2026）。DreamDojo：来自大规模人类视频的通用机器人世界模型。

Ye, S., Ge, Y. 等人（2026）。DreamZero：作为零样本策略的世界动作模型。

Zheng, K., Niu, D. 等人（2026）。EgoScale：用多样化的以自我为中心的人类数据扩展灵巧操作。

Physical Intelligence.（2025）。Pi-0.5：具有开放世界泛化的视觉 - 语言 - 动作模型。

本文翻译自 MoE Capital 博客文章“The Model That Dreams the World”

原文链接：https://moe-capital.com/blog-home/the-model-that-dreams-the-world

发布时间：2026年5月1日

← 上一篇：广州AI产业新政：打造创新生态，推动场景落地下一篇：杭州定调：AI入校已成定局，家长需关注的五大转变 →