具身智能:AI走向现实世界的新纪元
2026年的CES上,英伟达创始人黄仁勋说了一句话,让整个科技圈为之一振:"AI真正价值将从虚拟内容生成,迈向在物理世界中自主完成复杂任务。"
他将人工智能的发展划为三个阶段:深度学习、生成式AI、物理AI。
前两个阶段我们都已经经历过了。深度学习让机器学会了识别图像和语音。生成式AI让机器能写文章、画图、写代码。但它们始终活在屏幕那头,活在比特的世界里。
物理AI要做的是——让AI跨过屏幕,长出"身体",在真实世界里干活。
如果要用一句话定义:物理AI是能自主感知、理解、推理物理世界,并与之交互的人工智能系统。
这跟之前的大语言模型有本质区别。大模型处理的是文本和像素,物理AI处理的是重力、摩擦力、碰撞、空间关系——是真实世界的物理规律。
把物理AI拆开看,它由三层技术栈构成。
过去的机器人是"散装大脑":视觉归视觉管,语言归语言管,动作控制又是另一套系统。各模块之间靠工程师手写的规则桥接。
新一代的做法是VLA模型(Vision-Language-Action,视觉-语言-动作)。一个统一的神经网络,同时理解图像、语言,直接输出动作指令。
这就像人的大脑不需要刻意"翻译"就能把看到的、想到的、做出的动作无缝串联。2025年,Figure AI发布的Helix系统率先展示了这种能力;2026年5月,北京人形机器人创新中心推出的Pelican-Unify 1.0更进一步,在WorldArena全球评测中登顶,成为首个"具身大一统"模型。
机器人从此不再是"散装"的,而是有了真正的"全能大脑"。
光有大脑还不够。你让一个从来没碰过水的人去游泳,就算他脑子再聪明也得呛几口。
物理AI需要世界模型(World Model)——一个能理解物理规律、预测物理世界未来状态的模型。重力会把东西往下拉,玻璃撞到石头会碎,水是湿润的会流动。这些对人类来说理所当然的常识,对AI来说每一步都需要"学习"。
英伟达在2026年初推出了Cosmos系列世界模型,能从文字或图像直接生成符合物理规律的训练数据。蚂蚁灵波的LingBot-World实现了近10分钟的连续稳定视频生成,端到端交互延迟控制在秒级。成都人形机器人创新中心则发布了基于流形拓扑保持的世界模型MTPR-WM,解决的是"如何让AI记住物理世界的一致性"这道难题。
有了世界模型,AI就相当于在脑子里提前"演练"过无数次,再动手时不再是瞎蒙。
传统机器人的控制架构叫"三段式":感知→规划→控制。摄像头看到东西,传给规划模块做决策,再下发给电机控制。
这套架构的问题在于,每一步都是人工预设的,遇到没见过的场景就抓瞎。
新的做法是端到端神经网络。Figure AI的Helix系统采用了三层架构:底层负责平衡反射(像人的小脑),中间层以每秒200次的频率控制电机,顶层负责场景理解与决策。三层全是神经网络驱动,不再需要工程师一条条写规则。
国际机器人标准组织预测,未来三年内,80%的新机型将采用这种新架构。
训练物理AI和训练大语言模型,底层逻辑完全不同。
大语言模型是靠"喂"海量文本数据。物理AI没法这么干——你总不能把一万个机器人扔到工厂里摔摔打打来收集数据。
合成数据是核心答案。
英伟达的Isaac仿真平台,可以让机器人在虚拟环境中反复练习几千次、几万次,把动作策略打磨到极致,再迁移到真实机器人上执行。这一过程叫Sim-to-Real(仿真到现实迁移)。英伟达CEO黄仁勋在GTC大会上宣布,已与ABB、库卡、安川、发那科全球四大工业机器人巨头达成合作,通过仿真平台为全球超过200万台存量工业机器人提供虚拟调试和AI训练。
为什么这件事这么重要?因为真实世界的训练成本高得离谱——一个工业机械臂做一次抓取训练,从准备到执行到复位,可能要几分钟。在仿真世界里,一秒钟能跑几百次。
这条技术路线的关键环节有三个:
智元机器人在南昌3C产线的"无剧本真实作业直播",就是这套训练体系最好的答卷——机器人不是按预设脚本走流程,而是在真实产线上遇到什么就处理什么。
物理AI不是遥远的未来,2026年已经是部署元年。从ChatGPT推出到物理AI大规模落地,相隔不到三年。
特斯拉Cybercab计划2026年4月量产,目标年产能200万辆,运营成本压到每公里0.2美元。百度萝卜快跑全球订单总量突破1700万,已拿到迪拜首个全无人测试许可。
2026年的Robotaxi,不再是"能跑就行"的概念验证,而是真刀真枪的商业运营。
智元机器人2025年全球出货量第一(5,168台),宇树科技紧随其后(4,200台),优必选排第三(1,000台)。
万台级别的量产已经被突破。特斯拉更是喊出了Optimus量产100万台的目标,并计划用机器人产线取代Model S/X产线。
但"翻番"的另一面是淘汰。2026年,不具备闭环能力、仍停在demo阶段的厂商,融资和市场都会出清。
AI Agent不再只是聊天框里的"问答机器人",而是能跨应用、跨设备替你完成任务的智能伙伴。阿里巴巴通过千问的Agent能力,已经把高德导航、淘宝购物、飞猪订票串联成一个完整的服务闭环。
终端厂商和应用厂商之间关于用户数据权限的博弈,将是2026年AI领域"头等大事"。
光帆科技发布了首款具备视觉感知能力的主动式AI耳机。带毫米波雷达的情绪感知、ECG心律筛查、低功耗端侧AI芯片……这些技术正在让可穿戴设备从"计步器"进化为真正的"随身智能体"。
告别"话痨"模式的AI玩具,已经能做到多模态情感交互——视觉3D空间建模、触觉柔性电子皮肤、本地长时记忆。中国厂商在这一赛道的创新贡献度预计突破60%。
扫地机器人不再满足于"吸尘"。轮足式结构让它可以爬楼梯、跨门槛;仿生机械臂让它可以拾取杂物、整理物品、擦拭表面。全球扫地机器人出货量前五名全是国产品牌,合计占65.7%市场份额。
物理AI的叙事很宏大,但现实里的坎也不少。
第一座山:仿真与现实的鸿沟。Sim-to-Real Gap是老生常谈,但至今没有完美解法。域随机化能提升迁移能力,却牺牲了训练效率。你不可能把每个参数都随机化——那样训练出来的AI什么都会,也什么都不精。
第二座山:物理世界的容错成本太高。大语言模型说错一句话,大不了撤回重来。机器人操作失误可能造成人身伤害或财产损失。安全性的要求不是一个量级。
第三座山:规模化与成本的拉锯。万台量产是突破了,但单台成本仍然高企。特斯拉说要造一百万台,那是目标不是现状。从万台到百万台之间,不光需要技术突破,更需要供应链全链条的成熟。
还有一个被讨论但不常摆在纸面上的问题:机器人替代劳动力的社会冲击。这是慢变量,但不会因为不提就不发生。
英伟达的策略非常清晰:不造机器人,但让所有机器人都跑在英伟达的平台上。Cosmos做世界模型,GR00T做机器人基础模型,Isaac做仿真训练平台,OSMO负责边缘到云端的计算调度。这套"全家桶"一旦跑通,英伟达就是物理AI时代的底层基础设施——就像它在大模型时代靠GPU一样,又赢一次。
Figure AI完成超10亿美元融资,估值390亿美元,自研Hel03身高1.68米、重约60公斤,能自主完成浇花、端菜、叠衣服。
特斯拉的Optimus是马斯克押注的下一张王牌,百万台量产目标配合自家工厂的落地场景,形成了从产线到产品的闭环。
Physical Intelligence(π)由一群顶尖工程师、科学家和机器人专家组成,专注于将通用AI带进物理世界,目前还在技术打磨阶段,但团队配置本身就是一种信号。
智元机器人是全球第一个突破万台量产的人形机器人公司,同时在南昌3C产线完成了连续数小时的无剧本真实作业直播。公司已投资60多家产业链企业,布局覆盖本体制造、AI模型、灵巧操作和数据采集。
宇树科技出货量全球第二,正在推进IPO。
北京人形机器人创新中心的Pelican-Unify 1.0在WorldArena两大核心赛道同时夺冠,是具身智能领域首个"双冠"。
小鹏汽车走了另一条路——从自动驾驶反推人形机器人。第二代VLA大模型、全栈自研量产Robotaxi、新一代人形机器人IRON,三线并进。
安波福、法雷奥、地平线、千寻位置都在北京车展展示了机器人方案。逻辑很直接:智能驾驶用到的感知、路径规划、实时控制技术,和机器人需要的几乎一模一样。这是物理AI给传统制造业打开的一扇新门。
2022年底ChatGPT横空出世的那个瞬间,大家都意识到一件事变了:AI终于能说人话了。
物理AI正在经历的,是另一个维度的"ChatGPT时刻"。但这次不是"会说",而是"会做"。
智元的机器人在南昌产线连续数小时不按剧本干活,Figure 03在家里浇花叠衣服,萝卜快跑在迪拜街头无人驾驶——这些场景在2023年听起来像科幻,2026年已经是新闻。
中国在这个赛道上拿到了不错的身位。人形机器人出货量全球前列,清洁电器包揽全球前五,AI玩具创新贡献度突破60%,世界模型评测连拿冠军。这些不是PPT数据,是货架上的产品。
当然,路还很长。从万台到百万台、从特定场景到通用场景、从"能做"到"做得稳",每一步都是硬骨头。
但方向是明确的。AI的下一个十年,关键词不再是"生成"——是"行动"。
#物理AI #具身智能 #人形机器人 #世界模型 #VLA模型 #AI产业趋势
👉 关注我,了解更多AI产品