“物理世界AI”成全球竞争新高地

发布时间：2026-03-30 17:42阅读：16

当前，生成式人工智能主要停留在程式化、低复杂度的人机交互层面，难以有效感知、理解和作用于真实世界，严重制约其在工业制造、交通运输等实体领域的深度应用。为突破这一局限，主要科技强国正加快推进人工智能系统“理解现实”，以增强模型对物理环境、运行规律和真实行为的综合感知与决策能力，推动人工智能与现实世界深度融合。对此，我国应高度重视“理解现实”成为人工智能演进的重要方向，立足“人工智能+”战略，加快推进人工智能系统与物理实体、现实场景协同发展，充分发挥制造业体系完备、应用场景丰富的优势，将产业基础转化为人工智能高质量发展的新动能。

一、“理解现实”是推动未来人工智能发展的关键

近年来，生成式人工智能在文本生成、语义理解和图像创作等虚拟领域取得突破性进展，但在现实世界中的应用却明显滞后，逐渐形成“网上热、线下冷”的反差局面。人工智能在舆论传播、商业展示和办公场景中广泛应用，但在工业制造、交通运输、现场作业等高度依赖物理交互的领域，仍主要停留在试点和封闭应用阶段，难以实现规模化落地。这一现实反差表明，当前人工智能发展的瓶颈已不再是算力或模型规模，而在于其尚不具备对现实世界的真正理解能力。

从技术本质看，当前主流人工智能系统主要建立在对文本、语义、图像等信息形态数据的统计学习之上，擅长“理解虚拟世界”，却难以理解重力、摩擦力、惯性、空间结构等现实世界的基本物理规律。这一短板在智能装备领域尤为突出。现实中，无人机、无人车和工业机器人虽已具备一定自主能力，但其行为逻辑仍高度依赖人类预设规则和操作指令，只能在特定、受控环境中执行程式化、重复性的任务。一旦面对复杂环境变化或非标准物理交互场景，系统往往缺乏自主判断能力，难以对动作的合理性和安全性作出有效评估。例如，机器人可以执行“抓取”指令，却难以真正理解不同物体在重量、材质和结构上的物理差异，也无法自主判断应施加多大力度、选择何种角度才能既完成任务又避免损坏目标。这种对现实缺乏理解的“弱具身智能”，正成为制约人工智能在工业、交通等关键领域深度应用的核心障碍。

在这一背景下，美科技界和学术界开始将人工智能能力演进的重点，从“理解语言和图像”转向“理解现实世界”，并逐步将这一技术路线概括为“物理世界人工智能”。IBM在相关研究中指出，未来人工智能必须具备在物理环境中感知、推理、行动并通过反馈持续学习的能力，使AI不再局限于数字空间的信息处理，而是能够在真实世界中形成对环境结构、因果关系和动态变化的内部表征。英伟达则进一步强调，所谓“物理世界人工智能”，是指能够让机器人、自动驾驶系统等自主体理解物体的空间位置、运动状态及其相互作用关系，并据此在现实环境中做出安全、合理决策的人工智能形态。此外，学术界也提出相关概念，例如所谓的“物理常识与具身推理”（Physical Common Sense & Embodied Reasoning），意在让模型具备对空间、物体动态和因果关系的理解，并最终能生成实际行动策略，这与物理世界人工智能的目标高度一致。

与以往以内容生成和模式匹配为核心的人工智能不同，“物理世界人工智能”关注的不再是“生成什么信息”，而是“如何在现实中采取合理行动”。在现实世界中，任何一次决策和动作都必须遵循物理规律与安全约束，其后果具有不可逆性和高风险性。这决定了人工智能系统在采取行动前，必须具备对现实后果的预判能力。为此，美科技界普遍强调通过世界模型、物理仿真和具身学习等技术路径，使人工智能能够在内部“预演”现实过程，形成类似人类物理直觉的判断机制，从而在复杂环境中自主规划路径、动态调整动作并规避风险。

随着这一技术路径逐渐清晰，“理解现实”不再只是单一技术问题，而被视为人工智能迈向规模化落地和产业变革的关键门槛。国际组织已开始从产业和宏观层面系统评估其影响。2025年世界经济论坛发布的白皮书中指出，具备现实理解与自主行动能力的物理世界人工智能，将成为推动新一轮工业革命的重要基础力量，有望深刻改变制造业、能源、交通等基础产业的运行方式和组织形态。可以说，“理解现实”正成为人工智能由虚拟走向现实、由工具走向自主体的关键跃迁点，也正在演变为新一轮全球人工智能竞争中的战略制高点。

二、各科技强国正加速推进人工智能“理解现实”

当前，主要科技强国普遍认识到，仅依靠生成式人工智能在虚拟空间的能力提升，已难以支撑新一轮产业竞争优势，人工智能必须突破“理解现实”的瓶颈，才能真正进入工业体系和社会运行的核心环节。在这一背景下，各国正围绕机器人、自动驾驶、无人系统和智能制造等方向，加快推进人工智能从“理解信息”向“理解物理世界”演进。其中，美国走在前列，但并非孤例，日本、欧洲以及中国等科技强国也正结合自身产业基础与制度优势，形成各具特色的发展路径。

（一）美国：以“理解现实”为核心，抢占物理世界人工智能制高点

美国通过政策引导与产业整合，力图在机器人、自动驾驶和工业智能等关键领域率先实现系统化落地，构建长期竞争壁垒并抢占全球人工智能产业制高点。

政策层面，特朗普政府将人工智能系统“理解现实”纳入“发展下一代制造业”。特朗普政府在2025年7月发布的人工智能行动计划中明确提出“加快推动人工智能在物理世界创新应用，发展自主无人机、自动驾驶汽车、机器人以及其他尚无术语归纳的先进发明”。机器人政策方面，2025年5月，美国会已重启暂停六年的“机器人核心小组”，重新将美国机器人产业纳入国会重点关注中；美国在《2026财年国防授权法案》中提出设立“国家安全先进机器人小组”。无人机政策方面，特朗普政府在2025年6月签署《释放美国无人机优势》行政令，明确支持无人机产业技术创新，包括无人机自主性。自动驾驶政策方面，美国交通部在2025年4月发布“自动驾驶汽车新框架”，明确提出支持自动驾驶汽车“商业化部署”。企业方面，美科技巨头将“理解现实”视为人工智能产业发展的新增长极。2025年以来，美科技巨头密集表态，美国英伟达CEO黄仁勋1月表示：“下一代人工智能系统革命将集中在现实世界的智能应用”；2月，Meta首席科学家Yann LeCun称“人工智能需要超越语言，理解物理世界”；2月，OpenAI重点围绕“机器人、物理世界理解”等领域加快人才招募；3月，微软与英伟达宣布在人工智能工业领域达成战略合作，加快推进“物理世界人工智能”。

企业层面，美物理世界人工智能模型飞速发展。一是模型理解世界能力增长迅猛。2025年3月，谷歌发布了Gemini Robotics- ER模型，精准操作与理解能力是2024年12月推出的Gemini 2.0的200%；Figure呈现出快速“学习能力”，在相同的模型与机器人架构上，Figure02可以做到每月学会一个新的复杂操作；英伟达2025年1月推出可训练模型“理解现实”能力的平台Cosmos后，6月份就推出Cosmos Predict- 2模型，加快自动驾驶训练、测试和验证，已被美国Uber、英国Oxa等企业采用。二是形成“端到端”研发垄断。英伟达在2025年聚焦“理解现实”推出全流程研发体系，形成了Omniverse（数字孪生和仿真平台）、Cosmos（物理世界基础模型）、Isaac（机器人开发平台）三大类研发产品线，并且针对机器人、自动驾驶等特定产品推出Jetson Thor的通用性硬件模块与全球最大的物理世界人工智能开发数据集。三是构建“强强联合”的研发生态。美科技巨头已围绕“理解现实”形成深厚的合作开发网络。国际层面，美科技巨头正构建全球研发网络。例如微软与Sanctuary AI合作开发通用机器人系统，与ABB、西门子等国际顶尖巨头达成合作；英伟达与德国电信、西门子、印度信实工业、意大利超级计算组织等合作伙伴加快推动“人工智能系统在物理世界应用”。国内层面，美科技巨头间合作非常紧密，2024年12月，英伟达与亚马逊加速“理解现实”研究，推动机器人自主化；2025年5月，微软将马斯克的xAI 的Grok 3系列模型纳入Azure AI Foundry平台，加快工业领域应用；2025年8月，由比尔·盖茨投资的初创机器人公司Field AI获得英伟达、亚马逊的B轮融资，估值已超过20亿美元。

（二）日本：以机器人为核心，推动人工智能深度嵌入实体产业体系

日本是最早意识到“理解现实”对人工智能产业意义的国家之一，其推进路径并非从大模型出发，而是以机器人和制造业为牵引，倒逼人工智能理解物理世界。日本政府长期将机器人视为国家级战略产业，在此基础上，不断强化人工智能在机器人中的“具身化”和现实理解能力。

政策层面，日本在《新机器人战略》《Society 5.0》等国家战略框架下，明确提出发展能够在复杂现实环境中自主行动的智能系统，重点支持服务机器人、工业机器人和灾害救援机器人等方向。日本经济产业省持续通过专项补贴和示范项目，推动人工智能在生产现场、物流仓储和老龄化社会服务场景中的落地应用，强调机器人必须具备对空间结构、人类行为和物理环境的综合理解能力。

企业层面，日本制造业巨头正加速将人工智能从“控制系统”升级为“理解系统”。丰田在自动驾驶和通用机器人领域持续推进“世界模型”研究，强调通过长期现实数据积累，让人工智能理解道路环境和人机混行场景；索尼将传感器技术与人工智能结合，重点突破三维空间感知和动态场景理解；软银集团董事长孙正义表示，软银的下一个重点投资的前沿领域将是物理人工智能，其中重点押注人工智能和机器人技术的融合。

（三）欧洲：以工业与安全为导向，强调“可信、可控”的物理世界AI

欧洲推进人工智能“理解现实”的路径明显不同于美国，核心目标并非追求技术领先速度，而是将人工智能安全、可靠地嵌入工业体系。在“工业4.0”长期战略基础上，德国、法国等国将人工智能理解现实能力视为提升制造业竞争力的重要支撑。

欧盟层面，通过“地平线欧洲”等科研计划，持续支持人工智能在机器人、智能制造和自动驾驶领域的研究，重点聚焦物理建模、仿真环境和人机协作安全。欧洲在技术路线选择上高度重视数字孪生、物理仿真与现实验证的结合，强调人工智能在进入现实世界前，必须经过充分的虚拟验证和安全评估。

企业方面，西门子、ABB、博世等工业巨头正将人工智能深度嵌入工业控制和生产系统，使其具备对生产流程、设备状态和物理环境的综合理解能力。德国在自动驾驶领域虽推进节奏相对谨慎，但高度重视人工智能对复杂交通场景的物理理解和责任边界界定。

（四）中国：以场景规模和工程应用驱动“理解现实”能力演进

中国推进人工智能“理解现实”的优势不在于底层理论或通用模型原创，而在于超大规模应用场景和完整工业体系。近年来，中国在智能制造、无人配送、智能矿山、港口自动化等领域持续推进人工智能落地实践，倒逼人工智能系统不断提升对现实环境的理解能力。

政策层面，中国在多项国家规划中强调发展智能机器人、智能网联汽车和无人系统，提出推动人工智能与实体经济深度融合。地方政府在工业园区、港口、矿区等场景中推动人工智能规模化试点，为模型提供大量真实世界数据和持续迭代机会。

企业层面，中国科技企业正通过工程化路径弥补“理解现实”能力不足。例如，华为强调在自动驾驶和工业领域构建“端—云—边”协同体系，使人工智能通过持续感知和反馈学习理解复杂环境；百度在自动驾驶中通过大规模道路测试积累物理世界数据；多家机器人企业在仓储、制造和特种作业中探索让机器人在非结构化环境中自主行动。

三、中国发展的机遇与挑战

人工智能系统“理解现实”将是下阶段中美人工智能产业博弈的“胜负手”。美日欧加快发展人工智能“理解现实”将对我产生新的风险挑战，但我仍具备竞争优势。

（一）风险层面，多国并进加剧外部竞争压力

一方面，美国在人工智能“理解现实”的关键技术路径和产业生态构建上持续占据主导地位，构成最直接、最系统的竞争压力。从技术层面看，无论是用于刻画环境因果关系的“世界模型”，还是融合感知、语言与行动的“视觉—语言—动作”模型框架，均由美国率先提出并不断演进。谷歌、微软、英伟达、OpenAI等科技巨头在基础模型、仿真平台和具身智能体等方向持续加大投入，创新节奏快、资源集中度高，但在部分底层原创和通用能力上仍面临被拉开差距的风险。从产业层面看，美国正围绕“理解现实”加快构建新的生态壁垒。以英伟达为代表的企业，正通过CUDA架构、仿真平台、物理世界基础模型以及专用硬件模块，形成覆盖数据、软件、模型和硬件的“端到端”研发体系，意图将开发、训练和部署全过程锁定在其主导的生态之中。这种高度捆绑的产业模式，一旦在机器人、自动驾驶等领域形成事实标准，将显著抬高其他国家企业的进入门槛，对我相关产业自主发展形成长期约束。

另一方面，日本和欧洲在人工智能“理解现实”方向上的推进，也将对我形成不同形态的外部挑战。日本以机器人和工程体系见长，其路径并不依赖超大模型突破，而是通过将人工智能深度嵌入机器人本体、控制系统和传感体系，使智能系统在特定现实场景中具备高度稳定的理解与行动能力。这种“工程驱动型”优势，可能在高端工业机器人、精密制造和特种作业领域形成持续挤压，限制我相关产品向高附加值环节升级。欧洲则更多通过规则、标准和工业体系塑造竞争环境。随着人工智能系统日益进入现实空间，欧洲高度重视安全性、可解释性和责任界定，可能率先在机器人、自动驾驶等领域形成更严格的技术规范和认证体系。若相关规则被广泛国际化采纳，将在客观上抬高我企业进入高端市场的合规成本，形成制度性和隐性壁垒。总体看，欧日带来的风险虽不如美国集中和激烈，但具有“慢变量、长期化”的特征。

（二）机遇层面

一是“理解现实”是我国重点发展的技术方向。我国自动驾驶、机器人等行业头部企业重点布局的“视觉—语言—动作”模型是“理解现实”的核心技术路线，已开展融合视觉、语音、力觉等多种信息的技术研究，推动智能系统更好地理解现实世界实际运行规律，在自动驾驶、机器人等领域已取得一定成绩。二是制造业优势是我国人工智能产业落地的最大底气所在。人工智能“理解现实”落地需要制造体系支撑，不论是智能网联汽车，还是智能机器人，我国均具备产业优势。英国金融时报8月份统计称，中国国产智能机器人不仅直接带动对外出口，部分特种操作机器人成本是国际顶尖机器人的60%，极大抢占了海外市场。三是美对我有产业依赖。开源模型方面，美艾伦人工智能研究所（Ai2）2025年8月推出用于机器人“理解现实”的MolmoAct 7B模式是基于我阿里千问系列开源模型开发；训练数据方面，2025年8月，美OpenAI、谷歌等企业均购买了北京石景山机器人中心的训练数据；关键矿产方面，据摩根斯坦利2025年研究显示，美国人形机器人对我国稀土依赖已超过汽车等设备，特别是对钕铁硼磁铁。我国稀土反制迟滞了特斯拉OptimusV3、Figure03等具身智能最新产品发布进展。

四、思考

人工智能“理解现实”将是下一代人工智能走向三维物理空间的关键，也是人工智能技术广泛落地的关键。我宜把握发展契机，进一步引导人工智能与产业深度融合，率先形成人工智能“理解现实”的产业应用。

一是明确顶层设计。结合“人工智能+”战略进一步明晰我国人工智能系统“感知现实”的发展路径，明确政策支持方向，在国家重大专项、资金投入等层面引导企业与科研机构加快投入研究。

二是确保自主可控。集中力量突破底层模型技术，确保与国产芯片生态形成互联；另一方面，加快突破世界模型、多模态等模型形态，攻克模型预测与模拟物理世界的难题。

三是构建保障体系。由国家科研单位牵头，构建仿真模拟平台，既打通数据流通壁垒，也分担国内企业训练成本；打破“软硬分割”，鼓励人工智能模型企业与机器人、自动驾驶等企业合作开发，构建创新联合体，打造软硬件协同创新体系。

（作者白路、张怡，国际技术经济研究所）