具身智能：AI落地新纪元

发布时间：2026-06-04 02:06阅读：26

去年，英伟达 CEO 黄仁勋在多个场合反复提到一个新词——物理 AI。这个概念听起来有些陌生，但它指向的方向却关乎人工智能的下一个十年。

简单说，物理 AI 就是那些能在真实物理世界中感知、理解并执行复杂操作的智能系统。它们不再只是屏幕上的对话框或生成的文字图片，而是装在机器人身体里、开着汽车、在工厂车间里搬运货物的实体存在。

这是人工智能从虚拟世界走向现实世界的关键跨越。

如果你用过 ChatGPT 或者其他大语言模型，会发现它们偶尔会“胡说八道”，但这种错误通常无伤大雅，顶多重新问一遍。可物理 AI 不一样。

一个机器人如果判断失误，可能会摔坏昂贵的设备，甚至伤到人。自动驾驶汽车的每一次决策都关乎生命安全。这种“一次失误可能不可逆”的特性，让物理 AI 的容错空间远小于传统 AI。

更棘手的是数据问题。训练 ChatGPT 这样的大语言模型，可以从互联网上抓取海量文本，成本相对可控。但训练一个能干活的机器人，需要的是真实世界的操作数据——让机器人反复尝试抓取物体、行走、避障，这些数据的采集成本高昂，而且数量远远不够。

有人估算，当下物理 AI 所需的真实数据，和现有数据之间的缺口可能在千万倍级别。

这就是为什么仿真技术变得如此重要。在虚拟环境中让机器人“练习”成千上万次，再把学到的能力迁移到现实世界，成了当下最主流的解决方案。但仿真和现实之间始终存在差距，这道鸿沟被称为“sim2real gap”。

面对这些挑战，研究者们探索出了三条主要的技术路径，而且这三条路正在互相融合。

第一条是视觉语言模型（VLM）。它像是机器人的“大脑”，负责理解复杂的视觉信息和语言指令，进行长期规划。比如你对机器人说“帮我收拾桌子”，VLM 会把这个模糊的指令拆解成一系列具体步骤。

第二条是视觉语言动作模型（VLA）。它更像是“小脑和脊髓”，直接把视觉输入和语言指令转化为机器人的关节动作。VLA 的优势是反应快，能在毫秒级完成决策，这对需要实时控制的任务至关重要。

第三条是世界模型。它试图让 AI 理解物理世界的运行规律——重力、惯性、碰撞、因果关系。一个好的世界模型可以预测“如果我这样做，会发生什么”，这种能力对于机器人在复杂环境中做决策非常关键。

更重要的是，世界模型还能充当“数据工厂”，在虚拟环境中生成大量训练数据，缓解真实数据不足的问题。

这三条路径不是互相排斥的。实际上，最先进的系统往往是三者的结合：世界模型在后台生成训练数据，VLM 负责高层规划，VLA 负责实时执行。

英伟达无疑是这个领域的领头羊。他们不仅提供训练 AI 所需的芯片，还构建了完整的工具链——从仿真平台 Isaac Sim，到世界模型 Cosmos，再到基础的 VLA 模型。黄仁勋的野心很明确：成为机器人领域的“安卓系统”。

除了英伟达，谷歌、Figure AI、特斯拉等公司也在快速推进。谷歌依托 DeepMind 的技术积累，在机器人基础模型上持续投入。Figure AI 则走了一条垂直整合的路线，自己造机器人、自己训练模型，形成数据闭环。特斯拉的优势在于 FSD 自动驾驶系统积累的海量真实数据，以及正在德州建设的超大规模算力中心 Cortex。

国内的格局有些不同。互联网大厂的主要精力还在通用大模型上，对物理 AI 的投入相对谨慎。反而是智元机器人、宇树科技、银河通用这样的机器人公司在主导基础模型的开发。

智元机器人提出了“以 AI 定义本体”的思路，让模型和硬件协同迭代，目标是在2026年积累1000万小时的训练数据。宇树科技则押注世界模型路线，同时开源了自己的 VLA 模型。这些公司的共同特点是：技术能力强，融资充足，敢于自建模型团队。

物理 AI 的应用场景很多，但最先看到规模化落地的，很可能是智能驾驶和人形机器人。

智能驾驶本质上就是一个“约束化的具身智能”——它只需要在道路上行驶，不需要像人形机器人那样应对千变万化的环境。而且汽车行业已经有成熟的供应链和商业模式，技术一旦成熟就能快速推广。

今年以来，主流车企的技术路线发生了明显转向。小鹏推出了第二代 VLA 方案，推理效率提升12倍，响应延迟降到80毫秒以内。华为的 ADS 5.0采用了世界行为模型架构，在云端用多智能体博弈来训练驾驶策略。理想汽车的詹锟在英伟达 GTC 大会上明确表示，自动驾驶只是物理 AI 的起点，同一套 VLA 模型未来可以扩展到机器人。

人形机器人这边，进展同样迅速。Figure AI 已经开始小批量生产，他们在德州建的 BotQ 工厂能做到每小时下线一台机器人。特斯拉的 Optimus Gen 3已经在工厂内部署了上千台，目标年产能是100万台。国内的智元机器人在今年3月累计下线了1万台，全年计划新增数千台。

这些数字背后，是一个关键逻辑的形成：数据闭环。机器人部署得越多，收集的真实操作数据就越多，模型就能迭代得越快，能力提升后又能拓展到更多场景，吸引更多客户购买。这个飞轮一旦转起来，先发优势会非常明显。

在物理 AI 的产业链中，有一层常常被忽视，但其实至关重要——那就是工具层，尤其是仿真平台和工业软件。

仿真平台是基础模型训练的核心数据

← 上一篇：智能体概念 ---龙头股精选下一篇：英伟达发力！AI PC开启新时代，核心受益的五大潜力股 →