AI是否真正理解世界？通往通用智能的新路径

发布时间：2026-06-05 07:42阅读：22

引言：服务器中的AI，是否真正理解现实？

近三年来，大模型的发展使全球人工智能行业迎来史无前例的高潮。从ChatGPT到多模态系统，再到拥有推理功能的智能代理，许多专家预测通用人工智能（AGI）可能在几年内诞生。

然而，在所有关于AGI的探讨中，有一个最核心的问题始终未被真正解答：

当前运行于数据中心的AI，是否真的理解我们所处的世界？

它们表现出来的语言、推理与创新能力，究竟属于真正的认知行为，还是只是对大量数据模式的统计拟合？

这个问题最近再度成为学术界关注的焦点。

2026年5月，强化学习领域的开创者、图灵奖得主Richard Sutton与Banafsheh Rafiee联合发表了一篇题为《Toward Enactive Artificial Intelligence》的论文，对当前主流AI发展路径进行了深入反思，并提出了一个颇具冲击力的观点：

如果认知的本质是通过行动构建的，而非在大脑中被动地复制，那么目前主流的大模型方法可能只是通向智能的过渡阶段。

这篇论文虽未提出新的训练方法，但其倡导的新方向——生成认知（Enactive Cognition）——可能会影响未来十年的AI发展轨迹。

这种新思路正逐渐成为机器人技术、具身智能、世界模型及下一代强化学习研究的重要理论支撑。

从“表征世界”到“生成世界”

过去七十年的人工智能研究几乎都基于一个共同前提：

智能源于对世界建立精确的内部模型。

认知科学将这种理念称为：

表征主义（Representationalism）

在该框架下：

外部世界 → 感知输入 → 内部表征 → 推理处理 → 行动输出

无论是传统符号AI、计算机视觉，还是大语言模型，本质上都遵循这一范式。

GPT通过学习数万亿Token构建语言世界的模型；

图像模型通过数十亿张图片掌握视觉表征；

自动驾驶系统通过海量数据学习道路环境特征。

核心理念都是：

先理解，再行动。

但生成认知理论指出，这一逻辑本身可能就是问题的关键所在。

生成认知认为：

认知不是对客观世界的镜像复制，而是在行动中持续构建出来的。

世界本身并不存在一个等待被发现的固定意义。

意义源于行动。

一个物体之所以具有意义，不是因为它被贴上“椅子”的标签，而是因为它可以被坐、被搬、被踩、被移动。

认知