物理AI时代来临

发布时间：2026-06-05 23:52阅读：32

今日，机器人板块涨幅显著，达3%。主要受两条重磅消息驱动。

其一，华为云推出了具身智能平台CloudRobo。

该平台乃全球首个全流程国产具身智能开发平台，构建了国产机器人AI仿真与训练的完整底座。新松、亿嘉和、凌云光等头部企业已率先入驻，实现了国产算力与机器人软硬件的深度融合，预计将提升国产零部件及本体厂商的估值水平。

其二，英伟达CEO黄仁勋在韩国宣布，机器人产业是韩国的核心支柱，英伟达将全面深化在制造与半导体机器人领域的合作。

结合此前英伟达发布的Cosmos3物理AI大模型及GR00T人形机器人开发套件来看，这位AI巨头正不断加码对机器人的投入。

当前的发展趋势已十分明朗：AI的下一阶段指向物理AI，而机器人的未来则是AI机器人。物理AI充当大脑，机器人作为身体，两者的结合将产生巨大能量，彻底重塑世界。

所谓的物理AI，指的就是AI能够掌握空间、重力、摩擦等物理法则，从而理解现实世界并操控实体。目前，世界模型和具身大模型是行业热点，众多厂商正致力于此。

物理AI = 世界模型（认知大脑） + 具身大模型（行动执行） + 物理引擎 + 仿真 + 硬件闭环。

物理AI是由上述各项技术构成的完整体系。

1、认知层：世界模型（理解物理规律、预判环境）

2、决策层：具身大模型/VLA（解析指令、生成动作方案）

3、底层：可微分物理引擎、物理信息神经网络（内置力学公式、仿真训练）

4、落地层：传感器+机器人/自动驾驶硬件（物理执行落地）

如今便知造一个“人”有多复杂了吧？

唯有亲历为人父母，方能体会其艰辛。

唯有投身机器人研发，才惊叹于创造人类的造物主是多么深不可测。

······

AI的发展历程分为感知AI、生成AI和物理AI三个阶段。

按时间轴划分。

感知AI：2012-2021（机器视觉与听觉，催生摄像头、语音、机器视觉产业链）

生成式AI：2022-2024（ChatGPT、AIGC绘画，文字与图像的凭空创造）

物理AI（具身）：2025起（视觉与听觉感知 + 实体动手操作）

所谓感知AI，即赋予机器视觉与听觉，使其具备感知能力。具体表现为通过摄像头、麦克风、雷达等设备采集画面、声音及距离数据，识别物体。此阶段AI虽能看能听，但无法像当下这般自由创作或操控实物。

打个比方。

感知AI：看到猫，识别出是猫；

生成AI：依据文字描述画出一只猫；

物理AI：见到猫，能够伸手去抓取。

感知是AI的萌芽阶段。尽管其爆发于2012年，但此前数十年已在探索与积累中。

1958年，人工神经网络先驱、康奈尔大学罗森布拉特发明了感知机，这是全球首个机器视觉学习模型，使机器首次具备图形识别能力，开启了视觉感知的先河。该模型搭载400个光电传感器（20×20阵列），能识别字母及图案，由美国海军资助，登上了《纽约时报》头条，当时媒体预言：机器未来将能视物、说话、自主思考。

1962年，IBM推出全球首款实用语音感知设备，可识别16个英文数字和单词，语音感知技术随之落地。

此后几十年，图片识别错误率徘徊在25%左右，遭遇瓶颈。

2009年，华裔科学家李飞飞牵头构建了ImageNet数据集。包含1400万张标注图片、1000个分类，首次提供了超大规模图像数据集，解决了小数据集无法训练深度网络的问题。

随后几年，李飞飞的ImageNet（海量标注数据）+英伟达GPU算力+2012年AlexNet深度学习算法，三大要素齐聚。

2012年终于迎来质变，图片识别错误率降至15%。因此，2012年被视为感知AI爆发元年，随后开启了智能手机人脸识别与扫码的全民时代。

向人工智能的开拓者们致敬！