具身智能：AI走向现实世界的新纪元

发布时间：2026-05-23 03:11阅读：49

2026年的CES上，英伟达创始人黄仁勋说了一句话，让整个科技圈为之一振："AI真正价值将从虚拟内容生成，迈向在物理世界中自主完成复杂任务。"

他将人工智能的发展划为三个阶段：深度学习、生成式AI、物理AI。

前两个阶段我们都已经经历过了。深度学习让机器学会了识别图像和语音。生成式AI让机器能写文章、画图、写代码。但它们始终活在屏幕那头，活在比特的世界里。

物理AI要做的是——让AI跨过屏幕，长出"身体"，在真实世界里干活。

如果要用一句话定义：物理AI是能自主感知、理解、推理物理世界，并与之交互的人工智能系统。

这跟之前的大语言模型有本质区别。大模型处理的是文本和像素，物理AI处理的是重力、摩擦力、碰撞、空间关系——是真实世界的物理规律。

把物理AI拆开看，它由三层技术栈构成。

过去的机器人是"散装大脑"：视觉归视觉管，语言归语言管，动作控制又是另一套系统。各模块之间靠工程师手写的规则桥接。

新一代的做法是VLA模型（Vision-Language-Action，视觉-语言-动作）。一个统一的神经网络，同时理解图像、语言，直接输出动作指令。

这就像人的大脑不需要刻意"翻译"就能把看到的、想到的、做出的动作无缝串联。2025年，Figure AI发布的Helix系统率先展示了这种能力；2026年5月，北京人形机器人创新中心推出的Pelican-Unify 1.0更进一步，在WorldArena全球评测中登顶，成为首个"具身大一统"模型。

机器人从此不再是"散装"的，而是有了真正的"全能大脑"。

光有大脑还不够。你让一个从来没碰过水的人去游泳，就算他脑子再聪明也得呛几口。

物理AI需要世界模型（World Model）——一个能理解物理规律、预测物理世界未来状态的模型。重力会把东西往下拉，玻璃撞到石头会碎，水是湿润的会流动。这些对人类来说理所当然的常识，对AI来说每一步都需要"学习"。

英伟达在2026年初推出了Cosmos系列世界模型，能从文字或图像直接生成符合物理规律的训练数据。蚂蚁灵波的LingBot-World实现了近10分钟的连续稳定视频生成，端到端交互延迟控制在秒级。成都人形机器人创新中心则发布了基于流形拓扑保持的世界模型MTPR-WM，解决的是"如何让AI记住物理世界的一致性"这道难题。

有了世界模型，AI就相当于在脑子里提前"演练"过无数次，再动手时不再是瞎蒙。

传统机器人的控制架构叫"三段式"：感知→规划→控制。摄像头看到东西，传给规划模块做决策，再下发给电机控制。

这套架构的问题在于，每一步都是人工预设的，遇到没见过的场景就抓瞎。

新的做法是端到端神经网络。Figure AI的Helix系统采用了三层架构：底层负责平衡反射（像人的小脑），中间层以每秒200次的频率控制电机，顶层负责场景理解与决策。三层全是神经网络驱动，不再需要工程师一条条写规则。

国际机器人标准组织预测，未来三年内，80%的新机型将采用这种新架构。

训练物理AI和训练大语言模型，底层逻辑完全不同。

大语言模型是靠"喂"海量文本数据。物理AI没法这么干——你总不能把一万个机器人扔到工厂里摔摔打打来收集数据。

合成数据是核心答案。

英伟达的Isaac仿真平台，可以让机器人在虚拟环境中反复练习几千次、几万次，把动作策略打磨到极致，再迁移到真实机器人上执行。这一过程叫Sim-to-Real（仿真到现实迁移）。英伟达CEO黄仁勋在GTC大会上宣布，已与ABB、库卡、安川、发那科全球四大工业机器人巨头达成合作，通过仿真平台为全球超过200万台存量工业机器人提供虚拟调试和AI训练。

为什么这件事这么重要？因为真实世界的训练成本高得离谱——一个工业机械臂做一次抓取训练，从准备到执行到复位，可能要几分钟。在仿真世界里，一秒钟能跑几百次。

这条技术路线的关键环节有三个：

智元机器人在南昌3C产线的"无剧本真实作业直播"，就是这套训练体系最好的答卷——机器人不是按预设脚本走流程，而是在真实产线上遇到什么就处理什么。

物理AI不是遥远的未来，2026年已经是部署元年。从ChatGPT推出到物理AI大规模落地，相隔不到三年。

特斯拉Cybercab计划2026年4月量产，目标年产能200万辆，运营成本压到每公里0.2美元。百度萝卜快跑全球订单总量突破1700万，已拿到迪拜首个全无人测试许可。

2026年的Robotaxi，不再是"能跑就行"的概念验证，而是真刀真枪的商业运营。

智元机器人2025年全球出货量第一（5,168台），宇树科技紧随其后（4,200台），优必选排第三（1,000台）。

万台级别的量产已经被突破。特斯拉更是喊出了Optimus量产100万台的目标，并计划用机器人产线取代Model S/X产线。

但"翻番"的另一面是淘汰。2026年，不具备闭环能力、仍停在demo阶段的厂商，融资和市场都会出清。

AI Agent不再只是聊天框里的"问答机器人"，而是能跨应用、跨设备替你完成任务的智能伙伴。阿里巴巴通过千问的Agent能力，已经把高德导航、淘宝购物、飞猪订票串联成一个完整的服务闭环。

终端厂商和应用厂商之间关于用户数据权限的博弈，将是2026年AI领域"头等大事"。

光帆科技发布了首款具备视觉感知能力的主动式AI耳机。带毫米波雷达的情绪感知、ECG心律筛查、低功耗端侧AI芯片……这些技术正在让可穿戴设备从"计步器"进化为真正的"随身智能体"。

告别"话痨"模式的AI玩具，已经能做到多模态情感交互——视觉3D空间建模、触觉柔性电子皮肤、本地长时记忆。中国厂商在这一赛道的创新贡献度预计突破60%。

扫地机器人不再满足于"吸尘"。轮足式结构让它可以爬楼梯、跨门槛；仿生机械臂让它可以拾取杂物、整理物品、擦拭表面。全球扫地机器人出货量前五名全是国产品牌，合计占65.7%市场份额。

物理AI的叙事很宏大，但现实里的坎也不少。

第一座山：仿真与现实的鸿沟。Sim-to-Real Gap是老生常谈，但至今没有完美解法。域随机化能提升迁移能力，却牺牲了训练效率。你不可能把每个参数都随机化——那样训练出来的AI什么都会，也什么都不精。

第二座山：物理世界的容错成本太高。大语言模型说错一句话，大不了撤回重来。机器人操作失误可能造成人身伤害或财产损失。安全性的要求不是一个量级。

第三座山：规模化与成本的拉锯。万台量产是突破了，但单台成本仍然高企。特斯拉说要造一百万台，那是目标不是现状。从万台到百万台之间，不光需要技术突破，更需要供应链全链条的成熟。

还有一个被讨论但不常摆在纸面上的问题：机器人替代劳动力的社会冲击。这是慢变量，但不会因为不提就不发生。

英伟达的策略非常清晰：不造机器人，但让所有机器人都跑在英伟达的平台上。Cosmos做世界模型，GR00T做机器人基础模型，Isaac做仿真训练平台，OSMO负责边缘到云端的计算调度。这套"全家桶"一旦跑通，英伟达就是物理AI时代的底层基础设施——就像它在大模型时代靠GPU一样，又赢一次。

Figure AI完成超10亿美元融资，估值390亿美元，自研Hel03身高1.68米、重约60公斤，能自主完成浇花、端菜、叠衣服。

特斯拉的Optimus是马斯克押注的下一张王牌，百万台量产目标配合自家工厂的落地场景，形成了从产线到产品的闭环。

Physical Intelligence（π）由一群顶尖工程师、科学家和机器人专家组成，专注于将通用AI带进物理世界，目前还在技术打磨阶段，但团队配置本身就是一种信号。

智元机器人是全球第一个突破万台量产的人形机器人公司，同时在南昌3C产线完成了连续数小时的无剧本真实作业直播。公司已投资60多家产业链企业，布局覆盖本体制造、AI模型、灵巧操作和数据采集。

宇树科技出货量全球第二，正在推进IPO。

北京人形机器人创新中心的Pelican-Unify 1.0在WorldArena两大核心赛道同时夺冠，是具身智能领域首个"双冠"。

小鹏汽车走了另一条路——从自动驾驶反推人形机器人。第二代VLA大模型、全栈自研量产Robotaxi、新一代人形机器人IRON，三线并进。

安波福、法雷奥、地平线、千寻位置都在北京车展展示了机器人方案。逻辑很直接：智能驾驶用到的感知、路径规划、实时控制技术，和机器人需要的几乎一模一样。这是物理AI给传统制造业打开的一扇新门。

2022年底ChatGPT横空出世的那个瞬间，大家都意识到一件事变了：AI终于能说人话了。

物理AI正在经历的，是另一个维度的"ChatGPT时刻"。但这次不是"会说"，而是"会做"。

智元的机器人在南昌产线连续数小时不按剧本干活，Figure 03在家里浇花叠衣服，萝卜快跑在迪拜街头无人驾驶——这些场景在2023年听起来像科幻，2026年已经是新闻。

中国在这个赛道上拿到了不错的身位。人形机器人出货量全球前列，清洁电器包揽全球前五，AI玩具创新贡献度突破60%，世界模型评测连拿冠军。这些不是PPT数据，是货架上的产品。

当然，路还很长。从万台到百万台、从特定场景到通用场景、从"能做"到"做得稳"，每一步都是硬骨头。

但方向是明确的。AI的下一个十年，关键词不再是"生成"——是"行动"。

#物理AI #具身智能 #人形机器人 #世界模型 #VLA模型 #AI产业趋势