AI下一步：让模型走进真实物理世界

发布时间：2026-05-06 10:04阅读：19

最近我看完一份报告，心里很快就有了一个强烈的体会：

AI行业正在触发一次底层逻辑的重排。它不是单纯迭代更新，而是方向在变。

从GPT-2到GPT-4，再到DeepSeek、Claude——过去七年里，几乎所有大模型做的事情从本质上看都如出一辙：

就是在猜下一个词。

给你一句话，就去推断下一次最可能出现的词；给你一段话，就预测下一个最可能的段落。语言模型的工作方式就是这样：接收输入token，再输出token。

而且它已经做得越来越出色。以至于不少人都快分不清，对面究竟是人还是AI。

但问题在于：AI并不真正理解真实世界。

它会“知道”水往低处流这类表述出现频率很高，却不知道水为什么会往下走，不知道流速和水量之间的关联，也分不清水在管道中与在地表上的差别。

再强的语言模型，本质上仍是一台文字概率机器，而不是对现实的模拟器。

报告想强调的核心结论是：AI正从“预测下一个词”，逐步转向“预测世界状态”。

这句话听起来有点绕，我换个说法。

旧逻辑： AI看见A对B挥拳，然后输出“B倒下”。

新逻辑： AI掌握物理规律，能理解力、速度、距离、疼痛、反应时间等因素，从而去推演A对B挥拳之后，真实世界会出现怎样的结果。

这不是文字接龙，而是真正基于物理的模拟。

这种变化带来的影响非常本质。

方向一：世界模型——机器人开始变得更靠谱

过去几年，大家见过不少“人工智障”类型的机器人视频：它们能跑能跳，但端个杯子容易摔，走两步就撞门，遇到复杂场景几乎就不行。

关键原因是：这些机器人主要用语言模型来做控制。语言模型能把“端杯子”这个动作描述得很清楚，却并不知道真实环境里杯子有多重、有多滑、受力点在哪里。

当世界模型介入之后，机器人就能在虚拟环境里先把一次真实操作预演出来，把需要的物理变量都算进去，再去执行到真实场景。

最终效果是：机器人在工业现场的可用性，从“能用但经常出错”，变成了“基本不需要人手频繁看管”。

这也解释了为什么从今年开始，具身智能突然升温。并不是因为电机更便宜、关节更精细了，而是因为AI大脑终于能理解物理世界。

方向二：具身智能——国家在推动，普通人也有机会

今年4月，工信部与科技部联合发布了模数共振行动方案，重点推动AI与制造业的深度融合。5月，国家电网还采购了8500台机器人，总金额68亿元。

这并非偶然。

背后同样是同一条逻辑链：当AI大脑（世界模型）越来越成熟后，实体（机器人/设备）才能被AI真正有效地驱动起来。

对普通人而言，这意味着：

•制造业从业者：操作工岗位会减少，但AI训练师、机器人调试员等新岗位在增加，薪资水平也会持续上扬。 •求职者：现在进入具身智能赛道，比两年前进入大模型赛道门槛更低——大模型已高度集中，具身智能仍处在早期。 •投资者：看机器人公司时，重点别只盯硬件指标，要看是否具备世界模型能力。

•制造业从业者：操作工岗位会减少，但AI训练师机器人调试员等新岗位在增加，工资也在往上涨。

•求职者：现在进入具身智能赛道，比两年前进入大模型赛道门槛更低——大模型已高度集中，具身智能还在早期。

•投资者：评估机器人公司时，重点看有没有世界模型能力，而不仅是硬件参数。

AI下一轮的机会，不会主要在互联网上。

更可能发生在工厂里、仓库里、田间地头，出现在每一台被AI改造过的设备之中。

大模型的竞争阶段基本告一段落——OpenAI、Google、Anthropic、DeepSeek等巨头的格局已趋于稳定。下一块主要战场，是AI与真实物理世界的结合。

而在这个战场上，中国更占优势。我们在制造业基础、数据沉淀、供应链整合能力方面，具备世界级的实力。