AI翻译局特辑:世界模型如何重塑机器人训练闭环
AI翻译局· 特别专刊 · 第003期
机器人不缺乏躯体,而是缺失一个能孕育梦境的世界
NVIDIA Cosmos、腾讯混元HY-World、Figure以及GR00T——这四股力量共同绘制了2026年最重大的范式转折:世界模型正批量生产机器人所需的“训练梦境”。
前两期我们剖析了百度文心5.1与Figure 03。本期将视野拓宽——探讨一件超越单一产品、更具长远影响且可能重塑产业格局的议题:物理AI的闭环正在被数家企业同步构建。
闭环逻辑十分直观:世界模型生成数据→数据训练机器人→机器人于真实世界采集新数据→回输至世界模型。此前这条链条至少缺失三个环节,如今在2026年上半年,各环节已有具体产品补全。
本期将拆解四大议题:① 世界模型为何成为机器人的“训练发电站”;② 四大玩家(Cosmos / HY-World / Marble / Genie 3)的客观对比;③ NVIDIA与GR00T N1已验证的实战案例;④ 中美两路演进的真实差距。
▌ 第一章
机器人“训练数据”的危机
要理解世界模型的重要性,先看一组数据。Figure的System 0训练消耗了1000多小时的关节级人类运动数据;OpenAI训练GPT-4则使用了约13万亿token。前者仅是后者的零头。
DATA SCARCITY
数据匮乏
真实机器人采集数据速度慢得惊人——单台机器人24小时连续作业,一年仅能产出约8760小时数据。
SAFETY
安全成本
真实环境采集一旦失败,可能导致数十万美元设备损毁。而在仿真中,即便失败一万次也无任何损失。
DIVERSITY
多样性缺失
真实数据多集中于工厂、实验室或总部等场景。若机器人要进入家庭、医院或户外,则亟需从未见过的环境数据。
世界模型一次性解决了这三项难题:在虚拟世界中以数百倍速度生成训练数据,零失败成本,场景随意切换。但前提是——该虚拟世界需足够逼真,确保机器人习得的策略能zero-shot迁移至现实。
这便是2024年之前的死结:仿真器(Mujoco / Isaac Sim / Unity)物理模拟精准,但生成的视觉效果过于“游戏化”,模型习得的纹理、光照与阴影无法迁移至现实。世界模型的突破在于:它能在视觉层生成接近真实的画面,将sim-to-real gap压缩至可zero-shot的程度。
▲ AGIBOT World开源真实世界训练数据集 · 图源 humanoidsdaily.com
▌ 第二章
四大玩家:四条迥异路径
世界模型并非单一技术,而是四条路径同步演进。各家选择的输出形式、商业模式及目标场景均不相同。
四家企业各自行走不同道路:
▲ AGIBOT Genie Sim 3.0仿真训练平台 · 图源 humanoidsdaily.com
▌ 第三章
闭环实战:78万条合成轨迹的启示
抽象的“世界模型训练机器人”听起来如同PPT演示。但NVIDIA为GR00T N1这一开源人形机器人基础模型生成的合成数据,则是该链路目前最成熟的实战样本。
780,000
合成轨迹(synthetic trajectories)
= 6,500小时人类示范数据 = 相当于9个月连续真人采集,由NVIDIA Cosmos在11小时内生成
GR00T N1是NVIDIA于2025 GTC发布的全球首个开源人形机器人基础模型,其架构与Figure的Helix 02异曲同工——同样采用System 1(快思快动)+ System 2(慢思决策)双层架构。区别在于:
NVIDIA在博客中给出的关键结论:合成数据与真实数据组合训练,相比仅使用真实数据训练,机器人性能提升40%——这是世界模型作为“训练发电站”价值的首次硬核证据。
▌ 第四章
中美真实差距,并未如此悬殊
过去一年的舆论叙事是“中国机器人拼硬件,美国机器人拼大脑”。但在物理AI闭环这一维度,真实情况比舆论更为微妙。
▌ 中国路径
开源与硬件量产先行
世界模型:腾讯HY-World 2.0完全开源(GitHub + HuggingFace),阿里“快乐生蚝”于4月发布。机器人:宇树G1、智元X2、众擎已在全球出货,占据70%优势。优势:硬件量产成本最低,开源扩大开发者生态。
短板:缺乏NVIDIA此类“端到端平台”型整合者,世界模型与机器人厂商之间尚未出现深度耦合的训练管线。
▌ 美国路径
闭源与平台整合先行
世界模型:NVIDIA Cosmos全栈,World Labs商业SaaS,DeepMind研究预览。机器人:Figure 03量产(已交付350+台),Optimus试产中。优势:NVIDIA一家公司将“世界模型→仿真→机器人模型→部署”全栈打通。
短板:硬件量产已被中国甩开(Figure 350台 vs 国产万台级),开源生态正被腾讯与阿里追赶。
更准确的描述是:中国在硬件量产与开源生态上领先,美国在端到端平台整合与高端模型上领先——双方各有“分发优势”,但均未获得完整闭环。
最有趣的变量在于腾讯HY-World 2.0与宇树/智元的组合可能性——开源世界模型加量产硬件,若能复刻NVIDIA Cosmos × GR00T的闭环逻辑,便是该赛道中最被低估的中国路径。但此事至今尚未真正发生。
▲ Generalist AI GEN-1通用机器人模型 · 图源 humanoidsdaily.com
▌ 第五章
未来12个月:三大观察点
物理AI仍处早期,不预测胜负。提供三个具体且可验证的观察指标。
①
中国是否出现“HY-World × 宇树/智元”的深度整合
关键看腾讯混元团队是否发布“HY-World × 国产机器人”的标杆案例——类似NVIDIA的GR00T Blueprint那样的端到端管线。这是中国路径能否跑通闭环的关键信号。
②
合成数据占比能否突破80%
NVIDIA目前称合成与真实组合可提升性能40%。下一步:合成数据本身能否替代80%以上的训练数据?这关乎机器人量产成本能否进一步降低。
③
第三方厂商基于GR00T N1出货
NVIDIA押注“机器人界的Android”路线,但GR00T N1真正的护城河取决于有多少第三方机器人公司(非Figure这类自研派)基于其开发产品并出货。
▌ AI翻译局 洞察
2026年最重要的范式拐点并非某个具体模型或机器人,而是“世界模型 → 合成训练数据 → 机器人策略”这一链路终于跑通。NVIDIA的78万条合成轨迹是第一份可向投资人展示的硬核证据,腾讯HY-World 2.0的开源则为中国玩家提供了完整起点。
这一链路改变了一件事:机器人公司过去的核心瓶颈是“数据”——需在真实世界收集数千数万小时人类示范才能训练出一个能工作的机器人。如今世界模型将数据成本转化为GPU成本,而GPU成本可通过规模化解决。机器人产业首次开启了“摩尔定律式增长”的可能性。
但需冷静:这只是“闭环跑通”,而非“闭环饱和”。世界模型生成的视觉能否zero-shot迁移至任意陌生环境、物理引擎精度是否足以支撑复杂接触操作、长尾失败模式如何覆盖——这些问题远未解决。物理AI已进入其GPT-2时刻,但距离GPT-4仍有距离。
END OF NOTE · 特别篇 003
AI翻译局 · 物理AI闭环
将术语转化为判断,将判断转化为行动