标签

具身智能:AI落地新纪元

发布时间:2026-06-04 02:06来源:微信阅读:5

去年,英伟达 CEO 黄仁勋在多个场合反复提到一个新词——物理 AI。这个概念听起来有些陌生,但它指向的方向却关乎人工智能的下一个十年。

简单说,物理 AI 就是那些能在真实物理世界中感知、理解并执行复杂操作的智能系统。它们不再只是屏幕上的对话框或生成的文字图片,而是装在机器人身体里、开着汽车、在工厂车间里搬运货物的实体存在。

这是人工智能从虚拟世界走向现实世界的关键跨越。

如果你用过 ChatGPT 或者其他大语言模型,会发现它们偶尔会“胡说八道”,但这种错误通常无伤大雅,顶多重新问一遍。可物理 AI 不一样。

一个机器人如果判断失误,可能会摔坏昂贵的设备,甚至伤到人。自动驾驶汽车的每一次决策都关乎生命安全。这种“一次失误可能不可逆”的特性,让物理 AI 的容错空间远小于传统 AI。

更棘手的是数据问题。训练 ChatGPT 这样的大语言模型,可以从互联网上抓取海量文本,成本相对可控。但训练一个能干活的机器人,需要的是真实世界的操作数据——让机器人反复尝试抓取物体、行走、避障,这些数据的采集成本高昂,而且数量远远不够。

有人估算,当下物理 AI 所需的真实数据,和现有数据之间的缺口可能在千万倍级别。

这就是为什么仿真技术变得如此重要。在虚拟环境中让机器人“练习”成千上万次,再把学到的能力迁移到现实世界,成了当下最主流的解决方案。但仿真和现实之间始终存在差距,这道鸿沟被称为“sim2real gap”。

面对这些挑战,研究者们探索出了三条主要的技术路径,而且这三条路正在互相融合。

第一条是视觉语言模型(VLM)。它像是机器人的“大脑”,负责理解复杂的视觉信息和语言指令,进行长期规划。比如你对机器人说“帮我收拾桌子”,VLM 会把这个模糊的指令拆解成一系列具体步骤。

第二条是视觉语言动作模型(VLA)。它更像是“小脑和脊髓”,直接把视觉输入和语言指令转化为机器人的关节动作。VLA 的优势是反应快,能在毫秒级完成决策,这对需要实时控制的任务至关重要。

第三条是世界模型。它试图让 AI 理解物理世界的运行规律——重力、惯性、碰撞、因果关系。一个好的世界模型可以预测“如果我这样做,会发生什么”,这种能力对于机器人在复杂环境中做决策非常关键。

更重要的是,世界模型还能充当“数据工厂”,在虚拟环境中生成大量训练数据,缓解真实数据不足的问题。

这三条路径不是互相排斥的。实际上,最先进的系统往往是三者的结合:世界模型在后台生成训练数据,VLM 负责高层规划,VLA 负责实时执行。

英伟达无疑是这个领域的领头羊。他们不仅提供训练 AI 所需的芯片,还构建了完整的工具链——从仿真平台 Isaac Sim,到世界模型 Cosmos,再到基础的 VLA 模型。黄仁勋的野心很明确:成为机器人领域的“安卓系统”。

除了英伟达,谷歌、Figure AI、特斯拉等公司也在快速推进。谷歌依托 DeepMind 的技术积累,在机器人基础模型上持续投入。Figure AI 则走了一条垂直整合的路线,自己造机器人、自己训练模型,形成数据闭环。特斯拉的优势在于 FSD 自动驾驶系统积累的海量真实数据,以及正在德州建设的超大规模算力中心 Cortex。

国内的格局有些不同。互联网大厂的主要精力还在通用大模型上,对物理 AI 的投入相对谨慎。反而是智元机器人、宇树科技、银河通用这样的机器人公司在主导基础模型的开发。

智元机器人提出了“以 AI 定义本体”的思路,让模型和硬件协同迭代,目标是在2026年积累1000万小时的训练数据。宇树科技则押注世界模型路线,同时开源了自己的 VLA 模型。这些公司的共同特点是:技术能力强,融资充足,敢于自建模型团队。

物理 AI 的应用场景很多,但最先看到规模化落地的,很可能是智能驾驶和人形机器人。

智能驾驶本质上就是一个“约束化的具身智能”——它只需要在道路上行驶,不需要像人形机器人那样应对千变万化的环境。而且汽车行业已经有成熟的供应链和商业模式,技术一旦成熟就能快速推广。

今年以来,主流车企的技术路线发生了明显转向。小鹏推出了第二代 VLA 方案,推理效率提升12倍,响应延迟降到80毫秒以内。华为的 ADS 5.0采用了世界行为模型架构,在云端用多智能体博弈来训练驾驶策略。理想汽车的詹锟在英伟达 GTC 大会上明确表示,自动驾驶只是物理 AI 的起点,同一套 VLA 模型未来可以扩展到机器人。

人形机器人这边,进展同样迅速。Figure AI 已经开始小批量生产,他们在德州建的 BotQ 工厂能做到每小时下线一台机器人。特斯拉的 Optimus Gen 3已经在工厂内部署了上千台,目标年产能是100万台。国内的智元机器人在今年3月累计下线了1万台,全年计划新增数千台。

这些数字背后,是一个关键逻辑的形成:数据闭环。机器人部署得越多,收集的真实操作数据就越多,模型就能迭代得越快,能力提升后又能拓展到更多场景,吸引更多客户购买。这个飞轮一旦转起来,先发优势会非常明显。

在物理 AI 的产业链中,有一层常常被忽视,但其实至关重要——那就是工具层,尤其是仿真平台和工业软件。

仿真平台是基础模型训练的核心数据