标签

物理 AI 崛起:智能时代的新疆域

发布时间:2026-05-18 19:41来源:微信阅读:5

2026年5月14日,美国Figure AI举办了一场全程无剪辑的直播活动——Figure 03人形机器人连续运转33小时,成功分拣逾4万件快递包裹。全程零人工介入,独立完成整个班次任务。

其处理速度达到每秒0.37件,效率为人工的1.8倍,对不规则包裹的识别率高达99.7%。它不仅能自主更换电池,还能完成自我诊断,无需人工监视。

这已不仅是机器替代人类的新闻。

这标志着人工智能正式从“对话”迈向“操作”的关键转折——整个行业正经历一次根本性的范式转变:从语言智能迈向物理智能。

这一新范式被称为:物理AI(Physical AI)。

物理AI意味着人工智能从“在屏幕中交流”跨越到“在现实世界中劳作”。

当前的AI,如ChatGPT、DeepSeek、豆包等,本质上仍聚焦于信息处理。它们能撰写文章、进行分析、进行对话,核心能力源于对文本和图像的统计学习。你下达指令,它们返回答案,仅此而已。

但若将同样的问题交给机器人:“捡起地上那个蓝色箱子放到传送带上”,AI大模型往往束手无策。因为它需理解物理世界的运行规律:物体重量多少?地面摩擦系数如何?手臂应施加多大力量?这些信息无法从文本中获取。

物理AI正是为解决这一难题而生。

其核心在于真实物理环境中构建完整闭环:感知→决策→验证→执行→反馈。

机器人在真实环境中观察(感知),继而思考应对策略(决策),动手前先在模拟器中预演(验证),随后真正执行动作(执行),最后将结果反馈以优化下一轮决策(反馈)。整个过程如同人类一般——不依赖预设程序,而是基于对物理世界的真实理解。

这正是物理AI与语言AI的根本差异:语言AI改变的是信息传递方式,而物理AI改变的是人与现实世界互动的方式。

物理AI能发展到今天,得益于三大核心技术突破。

第一代技术:VLA——赋予机器人“眼与手”

VLA(Vision-Language-Action)模型是物理AI的首要基石。其逻辑简明:为机器人配备视觉(Vision)感知环境,搭载语言(Language)理解指令,赋予行动(Action)执行能力——三大模块统一建模,实现端到端训练。

这意味着机器人无需被预设每一步程序,你只需告知“将那个蓝色零件放上传送带”,它便能自主理解、规划并执行。

2023年,VLA路径开始成熟。加州大学伯克利分校的π0模型是该方向的首个代表作。中国也有企业同期启动自研VLA,比行业巨头更早切入,并以更小模型规模实现相近性能。

但第一代VLA存在根本局限:仅能处理“当下”,无法预测“未来”。

你指令机器人“分拣快递”,它能执行。但若问“若包裹变形怎么办”,它便无从回答。它缺乏对物理世界未来状态的预判能力。

第二代技术:世界模型——赋予AI“想象力”

这正是世界模型(World Model)出现的意义。世界模型相当于为机器人装上一个“物理模拟器”——它不仅能感知当前环境,还能预测环境即将发生的变化。

举例:将篮球抛向空中,未学物理者仅知球会落下;学过物理者可写出运动方程;而拥有世界模型的AI,则在内部构建完整物理模拟器——它知晓重力为9.8米/秒²,了解空气阻力随速度变化,明白球体旋转影响轨迹,并能在行动前于模拟器中推演“若如此抛掷,球将落于何处”。

这正是世界模型的核心价值:从“反应式执行”升级为“预测式行动”。

谷歌的Genie系列模型是该方向代表。英伟达推出Cosmos平台,专为机器人和自动驾驶生成高保真合成数据——因真实物理数据稀缺,世界模型可在虚拟环境中大规模生成训练数据。

但第二代仍存问题:世界模型与VLA为独立模块,前者负责预测,后者负责执行。模块间信息传递存在延迟与损耗——如同大脑与手之间信号传递慢了半拍。

第三代技术:融合——让预测与行动融为一体

2026年,决定性突破出现:世界模型与VLA开始深度整合,非简单拼接,而是有机融合。智平方发布的Video2Act是该方向代表技术。它将世界模型直接嵌入VLA内部——模型在生成动作同时,即可结合对未来状态的隐式推演进行决策。

简言之:机器人在“思考”如何行动的同时,已在“预演”该动作执行后的结果,并同步调整策略。全过程端到端,信息零损耗。

这并非简单技术升级。这是物理AI“感知-预测-执行”的一体化,是从“可用”迈向“好用”的临界跨越。

三大信号表明,物理AI拐点已然到来。

信号一:真实场景的规模化验证

Figure 03的33小时直播仅是冰山一角。智平方的AlphaBot系列机器人已在真实生产力场景中规模化部署——核心部件无故障运行时间达2万至5万小时,惠科1000台订单被摩根士丹利认定为“全球生产力型机器人最大单一订单”。

当机器人在真实工厂稳定运行数千甚至上万小时而不出故障——这正是物理AI从“演示”迈向“产品”的标志。

更有趣之处在于:人类尚未完全落败。

5月17日,Figure AI再次直播——1名人机实习生 VS 机器人团队,10小时包裹分拣对决。结果人类分拣12924个,机器人分拣12732个,人类以192个微弱优势胜出。

但Figure AI创始人表示:“这将是人类最后一次赢。”

这场人机对决的意义不在胜负,而在于:机器人已能与人类同台竞技。下一次,当机器人效率再提升20%、30%——胜负天平将彻底倾斜。

信号二:技术路线收敛,基础设施成熟

2026年,VLA与世界模型融合成为行业主流方向。英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头与中国头部企业,均朝同一方向发力:赋予AI对物理世界的理解、预测与操控能力。

沙利文数据显示,物理AI仿真及数据平台市场年复合增长率达33.49%,2034年规模将突破685亿美元。这绝非小打小闹,而是一个正在快速成型的基础设施生态。

信号三:具身智能——人形机器人是物理AI的“终极载体”

物理AI的进化与人形机器人的量产形成相互加速的正向循环。

宇树科技出货5500台,Figure获宝马5000台订单,特斯拉Optimus在弗里蒙特工厂进行小批量测试——人形机器人从“炫技”走向“变现”。而人形机器人的规模化,又为物理AI提供最丰富的真实训练场景。

Figure 03那场33小时直播背后,是Helix 02系统——其中System 0利用超1000小时人类运动数据训练,直接替代109504行手工C++代码,实现真正端到端“感知-行动”控制。

机器人在工厂作业越多,数据越丰富,AI越智能,机器人越能干。这是一个正向飞轮。

全球物理AI竞争目前形成两条清晰路径。

美国路线:全栈定义,占据技术制高点。英伟达从芯片到Cosmos平台再到自动驾驶,整套技术栈自主掌控。Figure AI专注具身智能,以Helix系统验证端到端融合可行性。谷歌Genie系列、世界模型与机器人控制实现全链路布局。

美国逻辑是:我定义标准,我搭建平台,我制定规则。

中国路线:场景驱动,工程化落地。中国虽无美国芯片优势,但拥有全球最丰富的制造业场景、最完整产业链、最活跃的机器人应用市场。宇树科技以5500台出货量证明规模化制造能力;优必选Walker S进驻比亚迪、吉利、蔚来总装线;智平方Video2Act在同类产品中表现领先。

中国逻辑是:我先跑通场景,我先做到实用好用,再逐步向上游延伸。

两条路线底层驱动力不同,但目标一致:让AI真正进入物理世界,成为变革生产方式的力量。

若将物理AI产业化进程剖开,它正经历三个阶段。

第一阶段(2024-2026):技术验证与单点落地。Figure 03的33小时直播、智平方惠科千台订单、Figure宝马5000台合同——均为本阶段标志性事件。核心任务是“证明机器人能在真实场景中稳定作业”。

第二阶段(2027-2030):工厂规模化与成本杀手入场。成本需从当前20-50万人民币降至10万以内,方能触发制造业大规模替代。一旦跨越成本临界点,人形机器人在制造业的渗透速度,可能比当年新能源汽车更快。

第三阶段(2030+):走出工厂,深入物理世界每个角落。建筑业、农业、物流、医疗——任何需要“动手”的场景,皆为物理AI战场。长期市场规模预测为年出货200万台,超3万亿美元。

2026年,是物理AI的关键转折年。这非人工智能发展的线性延伸,而是从“思考”到“行动”的根本性跨越。

Figure 03那场33小时直播,分拣4万件包裹,效率为人工1.8倍——这仅是开端。当效率提升至5倍、10倍,当成本降至10万以内,当机器人在工厂24小时不间断运行——

物理AI改变的不仅是工厂流水线,更是整个社会生产的基础逻辑。

理解它,正当其时。

*部分图源网络,侵联删

游学地点:走进具身智能真实场景,洞察物理AI底层逻辑

走进宇树:解读“开放生态”的组织逻辑

宇树的核心能力并非某项单一技术,而是一套“快速迭代+低成本制造”的组织能力。它可将G1价格压至2万美元以下,非靠偷工减料,而是研发、生产、供应链一体化效率。此能力源于宇树在四足机器人领域多年积累的制造经验。

走进优必选:解读“场景定制”的组织逻辑

优必选不追求打造最顶尖机器人,而是构建“能稳定运行的机器人”。这背后所需组织能力,是深入理解制造业场景、与客户深度共创、快速响应的定制能力。

游学助力认知革新,标杆引领商业未来!

未来企业竞争是学习速度的竞争!

标杆企业游学,不仅是聚焦管理学习、流程观摩,更是一场突破认知茧房、拓展思维边界的探索,于无形中重塑认知格局。

游学如镜,既照见差距,也映照更多可能。