物理 AI 崛起：智能时代的新疆域

发布时间：2026-05-18 19:41阅读：15

2026年5月14日，美国Figure AI举办了一场全程无剪辑的直播活动——Figure 03人形机器人连续运转33小时，成功分拣逾4万件快递包裹。全程零人工介入，独立完成整个班次任务。

其处理速度达到每秒0.37件，效率为人工的1.8倍，对不规则包裹的识别率高达99.7%。它不仅能自主更换电池，还能完成自我诊断，无需人工监视。

这已不仅是机器替代人类的新闻。

这标志着人工智能正式从“对话”迈向“操作”的关键转折——整个行业正经历一次根本性的范式转变：从语言智能迈向物理智能。

这一新范式被称为：物理AI（Physical AI）。

物理AI意味着人工智能从“在屏幕中交流”跨越到“在现实世界中劳作”。

当前的AI，如ChatGPT、DeepSeek、豆包等，本质上仍聚焦于信息处理。它们能撰写文章、进行分析、进行对话，核心能力源于对文本和图像的统计学习。你下达指令，它们返回答案，仅此而已。

但若将同样的问题交给机器人：“捡起地上那个蓝色箱子放到传送带上”，AI大模型往往束手无策。因为它需理解物理世界的运行规律：物体重量多少？地面摩擦系数如何？手臂应施加多大力量？这些信息无法从文本中获取。

物理AI正是为解决这一难题而生。

其核心在于真实物理环境中构建完整闭环：感知→决策→验证→执行→反馈。

机器人在真实环境中观察（感知），继而思考应对策略（决策），动手前先在模拟器中预演（验证），随后真正执行动作（执行），最后将结果反馈以优化下一轮决策（反馈）。整个过程如同人类一般——不依赖预设程序，而是基于对物理世界的真实理解。

这正是物理AI与语言AI的根本差异：语言AI改变的是信息传递方式，而物理AI改变的是人与现实世界互动的方式。

物理AI能发展到今天，得益于三大核心技术突破。

第一代技术：VLA——赋予机器人“眼与手”

VLA（Vision-Language-Action）模型是物理AI的首要基石。其逻辑简明：为机器人配备视觉（Vision）感知环境，搭载语言（Language）理解指令，赋予行动（Action）执行能力——三大模块统一建模，实现端到端训练。

这意味着机器人无需被预设每一步程序，你只需告知“将那个蓝色零件放上传送带”，它便能自主理解、规划并执行。

2023年，VLA路径开始成熟。加州大学伯克利分校的π0模型是该方向的首个代表作。中国也有企业同期启动自研VLA，比行业巨头更早切入，并以更小模型规模实现相近性能。

但第一代VLA存在根本局限：仅能处理“当下”，无法预测“未来”。

你指令机器人“分拣快递”，它能执行。但若问“若包裹变形怎么办”，它便无从回答。它缺乏对物理世界未来状态的预判能力。

第二代技术：世界模型——赋予AI“想象力”

这正是世界模型（World Model）出现的意义。世界模型相当于为机器人装上一个“物理模拟器”——它不仅能感知当前环境，还能预测环境即将发生的变化。

举例：将篮球抛向空中，未学物理者仅知球会落下；学过物理者可写出运动方程；而拥有世界模型的AI，则在内部构建完整物理模拟器——它知晓重力为9.8米/秒²，了解空气阻力随速度变化，明白球体旋转影响轨迹，并能在行动前于模拟器中推演“若如此抛掷，球将落于何处”。

这正是世界模型的核心价值：从“反应式执行”升级为“预测式行动”。

谷歌的Genie系列模型是该方向代表。英伟达推出Cosmos平台，专为机器人和自动驾驶生成高保真合成数据——因真实物理数据稀缺，世界模型可在虚拟环境中大规模生成训练数据。

但第二代仍存问题：世界模型与VLA为独立模块，前者负责预测，后者负责执行。模块间信息传递存在延迟与损耗——如同大脑与手之间信号传递慢了半拍。

第三代技术：融合——让预测与行动融为一体

2026年，决定性突破出现：世界模型与VLA开始深度整合，非简单拼接，而是有机融合。智平方发布的Video2Act是该方向代表技术。它将世界模型直接嵌入VLA内部——模型在生成动作同时，即可结合对未来状态的隐式推演进行决策。

简言之：机器人在“思考”如何行动的同时，已在“预演”该动作执行后的结果，并同步调整策略。全过程端到端，信息零损耗。

这并非简单技术升级。这是物理AI“感知-预测-执行”的一体化，是从“可用”迈向“好用”的临界跨越。

三大信号表明，物理AI拐点已然到来。

信号一：真实场景的规模化验证

Figure 03的33小时直播仅是冰山一角。智平方的AlphaBot系列机器人已在真实生产力场景中规模化部署——核心部件无故障运行时间达2万至5万小时，惠科1000台订单被摩根士丹利认定为“全球生产力型机器人最大单一订单”。

当机器人在真实工厂稳定运行数千甚至上万小时而不出故障——这正是物理AI从“演示”迈向“产品”的标志。

更有趣之处在于：人类尚未完全落败。

5月17日，Figure AI再次直播——1名人机实习生 VS 机器人团队，10小时包裹分拣对决。结果人类分拣12924个，机器人分拣12732个，人类以192个微弱优势胜出。

但Figure AI创始人表示：“这将是人类最后一次赢。”

这场人机对决的意义不在胜负，而在于：机器人已能与人类同台竞技。下一次，当机器人效率再提升20%、30%——胜负天平将彻底倾斜。

信号二：技术路线收敛，基础设施成熟

2026年，VLA与世界模型融合成为行业主流方向。英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头与中国头部企业，均朝同一方向发力：赋予AI对物理世界的理解、预测与操控能力。

沙利文数据显示，物理AI仿真及数据平台市场年复合增长率达33.49%，2034年规模将突破685亿美元。这绝非小打小闹，而是一个正在快速成型的基础设施生态。

信号三：具身智能——人形机器人是物理AI的“终极载体”

物理AI的进化与人形机器人的量产形成相互加速的正向循环。

宇树科技出货5500台，Figure获宝马5000台订单，特斯拉Optimus在弗里蒙特工厂进行小批量测试——人形机器人从“炫技”走向“变现”。而人形机器人的规模化，又为物理AI提供最丰富的真实训练场景。

Figure 03那场33小时直播背后，是Helix 02系统——其中System 0利用超1000小时人类运动数据训练，直接替代109504行手工C++代码，实现真正端到端“感知-行动”控制。

机器人在工厂作业越多，数据越丰富，AI越智能，机器人越能干。这是一个正向飞轮。

全球物理AI竞争目前形成两条清晰路径。

美国路线：全栈定义，占据技术制高点。英伟达从芯片到Cosmos平台再到自动驾驶，整套技术栈自主掌控。Figure AI专注具身智能，以Helix系统验证端到端融合可行性。谷歌Genie系列、世界模型与机器人控制实现全链路布局。

美国逻辑是：我定义标准，我搭建平台，我制定规则。

中国路线：场景驱动，工程化落地。中国虽无美国芯片优势，但拥有全球最丰富的制造业场景、最完整产业链、最活跃的机器人应用市场。宇树科技以5500台出货量证明规模化制造能力；优必选Walker S进驻比亚迪、吉利、蔚来总装线；智平方Video2Act在同类产品中表现领先。

中国逻辑是：我先跑通场景，我先做到实用好用，再逐步向上游延伸。

两条路线底层驱动力不同，但目标一致：让AI真正进入物理世界，成为变革生产方式的力量。

若将物理AI产业化进程剖开，它正经历三个阶段。

第一阶段（2024-2026）：技术验证与单点落地。Figure 03的33小时直播、智平方惠科千台订单、Figure宝马5000台合同——均为本阶段标志性事件。核心任务是“证明机器人能在真实场景中稳定作业”。

第二阶段（2027-2030）：工厂规模化与成本杀手入场。成本需从当前20-50万人民币降至10万以内，方能触发制造业大规模替代。一旦跨越成本临界点，人形机器人在制造业的渗透速度，可能比当年新能源汽车更快。

第三阶段（2030+）：走出工厂，深入物理世界每个角落。建筑业、农业、物流、医疗——任何需要“动手”的场景，皆为物理AI战场。长期市场规模预测为年出货200万台，超3万亿美元。

2026年，是物理AI的关键转折年。这非人工智能发展的线性延伸，而是从“思考”到“行动”的根本性跨越。

Figure 03那场33小时直播，分拣4万件包裹，效率为人工1.8倍——这仅是开端。当效率提升至5倍、10倍，当成本降至10万以内，当机器人在工厂24小时不间断运行——

物理AI改变的不仅是工厂流水线，更是整个社会生产的基础逻辑。

理解它，正当其时。

*部分图源网络，侵联删

游学地点：走进具身智能真实场景，洞察物理AI底层逻辑

走进宇树：解读“开放生态”的组织逻辑

宇树的核心能力并非某项单一技术，而是一套“快速迭代+低成本制造”的组织能力。它可将G1价格压至2万美元以下，非靠偷工减料，而是研发、生产、供应链一体化效率。此能力源于宇树在四足机器人领域多年积累的制造经验。

走进优必选：解读“场景定制”的组织逻辑

优必选不追求打造最顶尖机器人，而是构建“能稳定运行的机器人”。这背后所需组织能力，是深入理解制造业场景、与客户深度共创、快速响应的定制能力。

游学助力认知革新，标杆引领商业未来！

未来企业竞争是学习速度的竞争！

标杆企业游学，不仅是聚焦管理学习、流程观摩，更是一场突破认知茧房、拓展思维边界的探索，于无形中重塑认知格局。

游学如镜，既照见差距，也映照更多可能。

← 上一篇：新趋势！物理AI崛起下一篇：2026年人工智能产业高峰对话在深圳圆满落幕 →