AI是否真正理解世界?通往通用智能的新路径
引言:服务器中的AI,是否真正理解现实?
近三年来,大模型的发展使全球人工智能行业迎来史无前例的高潮。从ChatGPT到多模态系统,再到拥有推理功能的智能代理,许多专家预测通用人工智能(AGI)可能在几年内诞生。
然而,在所有关于AGI的探讨中,有一个最核心的问题始终未被真正解答:
当前运行于数据中心的AI,是否真的理解我们所处的世界?
它们表现出来的语言、推理与创新能力,究竟属于真正的认知行为,还是只是对大量数据模式的统计拟合?
这个问题最近再度成为学术界关注的焦点。
2026年5月,强化学习领域的开创者、图灵奖得主Richard Sutton与Banafsheh Rafiee联合发表了一篇题为《Toward Enactive Artificial Intelligence》的论文,对当前主流AI发展路径进行了深入反思,并提出了一个颇具冲击力的观点:
如果认知的本质是通过行动构建的,而非在大脑中被动地复制,那么目前主流的大模型方法可能只是通向智能的过渡阶段。
这篇论文虽未提出新的训练方法,但其倡导的新方向——生成认知(Enactive Cognition)——可能会影响未来十年的AI发展轨迹。
这种新思路正逐渐成为机器人技术、具身智能、世界模型及下一代强化学习研究的重要理论支撑。
从“表征世界”到“生成世界”
过去七十年的人工智能研究几乎都基于一个共同前提:
智能源于对世界建立精确的内部模型。
认知科学将这种理念称为:
表征主义(Representationalism)
在该框架下:
外部世界 → 感知输入 → 内部表征 → 推理处理 → 行动输出
无论是传统符号AI、计算机视觉,还是大语言模型,本质上都遵循这一范式。
GPT通过学习数万亿Token构建语言世界的模型;
图像模型通过数十亿张图片掌握视觉表征;
自动驾驶系统通过海量数据学习道路环境特征。
核心理念都是:
先理解,再行动。
但生成认知理论指出,这一逻辑本身可能就是问题的关键所在。
生成认知认为:
认知不是对客观世界的镜像复制,而是在行动中持续构建出来的。
世界本身并不存在一个等待被发现的固定意义。
意义源于行动。
一个物体之所以具有意义,不是因为它被贴上“椅子”的标签,而是因为它可以被坐、被搬、被踩、被移动。
认知