AI走出屏幕:物理智能重塑工厂与道路
点击上方蓝字 关注我们
NTIDA
过去三年,AI学会了说话;未来十年,AI很可能要学会干活。当这一判断逐渐成为产业共识,整个AI产业的价值坐标正在被重新定义。
英伟达推出面向机器人与自动驾驶的Cosmos世界基础模型;Google DeepMind持续迭代Genie系列,最新Genie 3已能生成可交互的三维环境;汽车企业开始探索端到端与视觉—语言—动作模型;机器人、数字孪生、仿真平台和工业软件也重新受到关注。看起来是几条不同的赛道,背后其实只有一件事:AI正在离开屏幕,走向现实世界。
从“预测下一个词”到“预测下一秒的世界”
过去的大模型处理文字、图片和代码,改变的是信息世界。下一阶段,AI要面对的不再是一道题,而是一辆行驶中的汽车、一条高速运转的产线,以及一个随时发生变化的真实环境。它不只要回答问题,还要观察环境、判断状态、预测结果,并最终完成行动。
这背后的核心技术叫“世界模型”——让机器获得类似人类的预判能力。人类看到前车轻微偏转,会判断它是否准备变道;看到孩子追着球跑向马路,会提前减速。真正行动以前,人脑会先把事情“演一遍”。世界模型试图让机器获得类似的能力。
2025年1月,英伟达在CES上推出Cosmos世界基础模型平台,使开发者能够生成大量基于物理学的逼真合成数据,用于训练和评估自动驾驶汽车和机器人等物理AI系统。2026年6月,英伟达进一步推出Cosmos 3,这是全球首款完全开放的全模态模型,能够以领先的物理精度原生理解并生成文本、图像、视频、环境音和动作,将物理AI的训练和评估周期从数月缩短至数天。
与此同时,Google DeepMind于2025年8月发布Genie 3,能以24帧/秒的速度支持720p分辨率的实时导航,场景一致性可持续数分钟,让AI对世界的模拟从“静态生成”跨入“动态交互”的全新阶段。
不过,现阶段的世界模型仍有明显短板,容易产生“物理幻觉”、生成违背客观物理规则的内容。北京智源人工智能研究院院长王仲远指出,目前所有类型的世界模型,距离真正能理解、预测、交互真实物理世界的基座模型,都还有非常大的差距。从“能生成”到“能行动”,中间仍隔着可靠性、安全性和工程验证。
物理AI的产业架构:大脑、身体与训练场
简化来看,物理AI可以分成三个部分。
模型是大脑——负责处理传感器输入,理解任务、规划步骤,再把判断转化为行动。汽车、机器人和工业设备是身体——把模型输出变成转向、刹车、行走和抓取,同时把现实环境中的新数据送回系统。仿真平台和工业软件是训练场——让机器先在数字环境里练习,再进入现实。
这也解释了英伟达同时布局芯片、Omniverse、Isaac和Cosmos的原因。它争夺的并不只是某一款机器人,而是物理AI的开发平台:提供计算基础、仿真工具和基础模型。算力、仿真软件、工业软件、数据服务和模型部署平台,都可能随着设备数量增长而扩大其商业价值。
三大应用,三个商业化阶段
物理AI目前最明确的应用是智能制造、自动驾驶和人形机器人,三者处于不同的商业化阶段。
智能制造是目前最接近算清账的领域。国际机器人联合会发布的《World Robotics 2025》显示,2024年全球新安装工业机器人约54.2万台;截至当年末,全球在运行工业机器人约466万台。中国是全球最大的工业机器人市场,2024年新安装约29.5万台,占全球54%;在运行工业机器人超过202万台,占全球总量的43%。物理AI的目标是把固定自动化升级为更能适应环境变化的柔性生产——机器人不需要第一天就像人一样无所不能,只要减少停机、降低能耗、提高良品率,创造的收益高于部署和维护成本,就能成为一门生意。
自动驾驶拥有最清晰的数据飞轮。车辆每行驶一公里,都可能遇到新的道路、天气和交通参与者。车辆越多,收集到的复杂道路数据越丰富;数据越丰富,模型越有机会改善;模型能力提升后,又可以部署到更多车辆。从端到端到VLA、世界模型等新兴架构,正从理论探索迈向实际应用。
人形机器人的想象空间最大,距离成熟也最远。2025年被业界视为人形机器人的“量产元年”。优必选2025年人形机器人累计订单超14亿元,交付超500台;智元机器人年度出货量超过5100台。但判断人形机器人是否真正进入产业拐点,不能只看演示,而要看三件事:能否连续稳定工作、单台综合成本能否下降、部署后能否形成有效的数据回流。
中国物理AI:硬件起跑,闭环仍在形成
中国发展物理AI的重要优势,是庞大的制造业体系和相对完整的机器人供应链。大量工厂、仓库和自动化设备提供了真实应用场景;电机、减速器、传感器、控制器等产业基础,也有利于终端设备的制造和成本下降。
但物理AI的竞争不只发生在硬件端。更重要的是,谁能建立高质量的仿真环境,谁能获得大规模真实动作数据,谁又能把不同设备产生的数据转化为可复用的模型能力。
国内企业已在不同环节展开布局。51World围绕数字孪生与智能驾驶仿真布局,全球TOP20车企中的55%、中国TOP20车企中的60%已与其达成深度合作。索辰科技从CAE工程仿真向物理AI拓展,2025年推出开物平台和机器人虚拟训练平台。群核科技则从空间设计延伸到空间智能,开放底层空间智能能力,助力机器人与AI智能体提升空间感知能力。
不过,上述业务大多仍处于拓展阶段。更准确地说,中国已经具备机器人整机、零部件、仿真软件和应用场景等产业基础,但大规模部署和数据闭环仍处于形成阶段。硬件决定机器能不能被造出来,数据闭环决定它能不能不断变聪明。
结语
传统AI的循环是:收集互联网数据,训练模型,输出内容。物理AI希望建立另一种循环:构建虚拟环境,训练机器,部署真实设备,回收现实数据,再继续改善模型。
前者改变信息生产,后者试图改变现实世界的运行效率。一旦仿真到现实的迁移、设备的大规模部署、数据对模型的持续改善等问题得到解决,AI竞争的核心就不再只是参数和算力,而是谁拥有更多设备、更多有效场景,以及更多来自现实世界的经验。
过去的大模型学习互联网,下一代模型开始学习现实世界。AI真正的下半场,不在屏幕里——它就在工厂车间、在行驶的道路上、在每一次机器与物理世界的真实交互之中。
点击这里 了解我们
申请入会
请长按二维码