AI如何从被动接收转向主动交互：生成性认知新解

发布时间：2026-06-07 06:39阅读：32

你是否曾思考过，人类究竟是如何‘看见’这个世界的？

在传统视角下，眼睛如同相机，负责捕捉外部景象并传输给大脑，随后大脑像计算机般处理图像，最终指挥肢体行动。感知作为输入，思考承担处理，行动负责输出——三者界限清晰，步骤分明。

然而，由Banafsheh Rafiee与Richard S. Sutton（强化学习奠基人之一）共同撰写的一篇新论文，提出了一种颠覆性的见解：感知并非被动的‘接收’，而是主动的‘参与’。他们主张将名为‘生成性认知’（Enactive Cognition）的哲学理念引入人工智能领域，使AI不再仅仅是躲在服务器中处理数据的‘书呆子’，而是能主动与世界互动、在行为中理解环境的‘参与者’。

世界并非一本静默的书，而是一场持续的对话

生成性认知的核心思想可概括为：我们感知世界的方式，取决于我们如何与之互动。

试想你走进一间陌生的漆黑房间。你不会静止不动，等待眼睛‘接收’房间全貌。相反，你会伸手摸索墙壁，转头寻找光源，向前迈步感受地面倾斜。每一次移动都在改变你获取的感官信息，而这些信息又指引你下一步动作。在此过程中，‘看’与‘动’完全交织——无法将其割裂。

论文指出，世界过于复杂且动态，任何内部模型都无法完整复刻。最精准、最即时的信息永远存在于世界本身，而非AI的参数之中。正如机器人学家Rodney Brooks所言：‘世界是它自身最好的模型。’

四大核心：经验、耦合、自主、具身

为使这一理念在AI领域落地，作者提炼出四个关键概念。

首先，经验并非数据，而是鲜活的互动。

当下的AI，尤其是大语言模型，本质上是在消化人类整理好的海量文本。它们缺乏‘经历’，仅有‘阅读’。这好比一个人背熟了整本旅游指南，却从未踏出家门半步。

真正的经验是持续且流动的互动。强化学习（RL）在此迈出了第一步：AI智能体通过试错与环境交互，自行收集数据。但这仍显不足——真正的经验还应包含‘熟练感’（知晓如何操作才顺手）和‘规范性’（明辨何事有益、何事有害），而不仅仅是获取外部奖励。

其次，行动与感知是‘紧密绑定’的。

在主流AI中，流程通常为：摄像头拍摄（感知）→ 算法分析（思考）→ 电机执行（行动）。但生成性认知认为，这三者应构成一个连续的循环。

试想，你阅读这段文字时，眼睛并非静止。目光会自然在字词间跳跃，遇到难点可能回退重读，遇到关键信息则放慢速度。你的‘理解’便诞生于这些主动的眼动之中，而非眼球静止时拍下一张‘照片’再交由大脑分析。

论文提及一个有趣概念‘最大把握’（maximal grip）：当你看不清某物时，会不自觉地凑近、歪头或调整姿势，直至视野清晰。这种身体自发寻求最佳感知状态的趋势，正是行动与感知不可分割的体现。当前AI几乎不具备此能力——摄像头拍什么，它就看什么，不会主动‘凑近观察’。

第三，自主性：自行定义‘好坏’，而非等待人类评分。

当下的AI宛如永远在做作业的学生：题目与标准答案均由人类提供，它仅负责模仿。大语言模型预测下一个词，本质是在模仿人类写作模式；图像识别模型判断图片是否为猫，依据则是人类标注的标签。

然而，真正具备自主性的系统，应能自行判断成败。论文借用‘自创生’（autopoiesis）概念阐述：生命体维持自身存在，因此其感知天然带有‘对我有利或有害’的视角。对AI而言，这意味着未来系统或许需要某种形式的‘自我维持’——无论是保持电量、保护硬件，还是维系已习得能力——并以此驱动行为，而非完全依赖人类工程师设定的奖励函数。

第四，身体不仅是‘容器’，更是认知的组成部分。

你是否想过，为何椅子对你而言是‘可坐的’，对鱼却毫无意义？因为‘可坐’并非椅子固有属性，而是相对于你的身体结构（有腿、可弯曲、有重量）而存在。这被称为‘可供性’（affordance）。

生成性认知强调，无身体则无感知。身体的形态、感官分布及可执行动作，决定了你能感知到何种世界。若改变机器人传感器位置，其‘世界’亦将随之改变。但在当今AI研究中，身体常被视为需克服的难题——先在模拟器训练，再‘移植’至机器人。论文呼吁，应将身体视为认知的积极参与者，而非被动的执行终端。

强化学习：最接近，但仍存差距

在该论文看来，主流AI从古老的规则系统到今日的大语言模型，大体忽视了上述洞见。它们将智能视为一种‘内部计算’，与世界的关系仅停留在输入与输出。

强化学习（RL）是个特例。它让智能体通过行动获取反馈，将‘做’置于学习核心，这与生成性理念在结构上产生共鸣。但作者也清醒指出，现有RL仍显不足：奖励信号多由人类设计；感知与行动在架构上往往分离；身体在多数研究中仅是实现细节，而非认知核心。

论文还提及了一些令人振奋的前沿方向：内在动机（让AI因‘好奇’而探索）、主动推理（让AI主动降低不确定性）以及形态计算（让机器人身体本身辅助计算）。这些均指向更‘生成性’的AI演进。

结语：从‘世界旁观者’迈向‘世界参与者’

这篇论文并非否定现有AI技术，而是呼吁视角的转换。当我们设计AI时，不应仅关注‘数据处理速度、参数规模’，更应追问：它是否在持续互动中理解世界？它能否主动探索而非被动预测？它是否拥有自身‘立场’而非单纯模仿人类？

未来的AI或许不再仅是更强大的‘聊天机器人’或‘视频生成器’，而是能像生命体般，通过主动触摸、移动、试探来‘活’在其环境中的系统。届时，AI才真正开始‘感知’世界——不再是世界的旁观者，而是作为世界的参与者。

---

本文基于Rafiee与Sutton的论文《Toward Enactive Artificial Intelligence》（arXiv:2605.24238）

← 上一篇：AI时代弱势群体互助新范式：乡村食堂模式的社会实验启示下一篇：告别平台锁定！Walrus 为 AI Agent 打造可迁移记忆层 →