AI如何从被动接收转向主动交互:生成性认知新解
你是否曾思考过,人类究竟是如何‘看见’这个世界的?
在传统视角下,眼睛如同相机,负责捕捉外部景象并传输给大脑,随后大脑像计算机般处理图像,最终指挥肢体行动。感知作为输入,思考承担处理,行动负责输出——三者界限清晰,步骤分明。
然而,由Banafsheh Rafiee与Richard S. Sutton(强化学习奠基人之一)共同撰写的一篇新论文,提出了一种颠覆性的见解:感知并非被动的‘接收’,而是主动的‘参与’。他们主张将名为‘生成性认知’(Enactive Cognition)的哲学理念引入人工智能领域,使AI不再仅仅是躲在服务器中处理数据的‘书呆子’,而是能主动与世界互动、在行为中理解环境的‘参与者’。
世界并非一本静默的书,而是一场持续的对话
生成性认知的核心思想可概括为:我们感知世界的方式,取决于我们如何与之互动。
试想你走进一间陌生的漆黑房间。你不会静止不动,等待眼睛‘接收’房间全貌。相反,你会伸手摸索墙壁,转头寻找光源,向前迈步感受地面倾斜。每一次移动都在改变你获取的感官信息,而这些信息又指引你下一步动作。在此过程中,‘看’与‘动’完全交织——无法将其割裂。
论文指出,世界过于复杂且动态,任何内部模型都无法完整复刻。最精准、最即时的信息永远存在于世界本身,而非AI的参数之中。正如机器人学家Rodney Brooks所言:‘世界是它自身最好的模型。’
四大核心:经验、耦合、自主、具身
为使这一理念在AI领域落地,作者提炼出四个关键概念。
首先,经验并非数据,而是鲜活的互动。
当下的AI,尤其是大语言模型,本质上是在消化人类整理好的海量文本。它们缺乏‘经历’,仅有‘阅读’。这好比一个人背熟了整本旅游指南,却从未踏出家门半步。
真正的经验是持续且流动的互动。强化学习(RL)在此迈出了第一步:AI智能体通过试错与环境交互,自行收集数据。但这仍显不足——真正的经验还应包含‘熟练感’(知晓如何操作才顺手)和‘规范性’(明辨何事有益、何事有害),而不仅仅是获取外部奖励。
其次,行动与感知是‘紧密绑定’的。
在主流AI中,流程通常为:摄像头拍摄(感知)→ 算法分析(思考)→ 电机执行(行动)。但生成性认知认为,这三者应构成一个连续的循环。
试想,你阅读这段文字时,眼睛并非静止。目光会自然在字词间跳跃,遇到难点可能回退重读,遇到关键信息则放慢速度。你的‘理解’便诞生于这些主动的眼动之中,而非眼球静止时拍下一张‘照片’再交由大脑分析。
论文提及一个有趣概念‘最大把握’(maximal grip):当你看不清某物时,会不自觉地凑近、歪头或调整姿势,直至视野清晰。这种身体自发寻求最佳感知状态的趋势,正是行动与感知不可分割的体现。当前AI几乎不具备此能力——摄像头拍什么,它就看什么,不会主动‘凑近观察’。
第三,自主性:自行定义‘好坏’,而非等待人类评分。
当下的AI宛如永远在做作业的学生:题目与标准答案均由人类提供,它仅负责模仿。大语言模型预测下一个词,本质是在模仿人类写作模式;图像识别模型判断图片是否为猫,依据则是人类标注的标签。
然而,真正具备自主性的系统,应能自行判断成败。论文借用‘自创生’(autopoiesis)概念阐述:生命体维持自身存在,因此其感知天然带有‘对我有利或有害’的视角。对AI而言,这意味着未来系统或许需要某种形式的‘自我维持’——无论是保持电量、保护硬件,还是维系已习得能力——并以此驱动行为,而非完全依赖人类工程师设定的奖励函数。
第四,身体不仅是‘容器’,更是认知的组成部分。
你是否想过,为何椅子对你而言是‘可坐的’,对鱼却毫无意义?因为‘可坐’并非椅子固有属性,而是相对于你的身体结构(有腿、可弯曲、有重量)而存在。这被称为‘可供性’(affordance)。
生成性认知强调,无身体则无感知。身体的形态、感官分布及可执行动作,决定了你能感知到何种世界。若改变机器人传感器位置,其‘世界’亦将随之改变。但在当今AI研究中,身体常被视为需克服的难题——先在模拟器训练,再‘移植’至机器人。论文呼吁,应将身体视为认知的积极参与者,而非被动的执行终端。
强化学习:最接近,但仍存差距
在该论文看来,主流AI从古老的规则系统到今日的大语言模型,大体忽视了上述洞见。它们将智能视为一种‘内部计算’,与世界的关系仅停留在输入与输出。
强化学习(RL)是个特例。它让智能体通过行动获取反馈,将‘做’置于学习核心,这与生成性理念在结构上产生共鸣。但作者也清醒指出,现有RL仍显不足:奖励信号多由人类设计;感知与行动在架构上往往分离;身体在多数研究中仅是实现细节,而非认知核心。
论文还提及了一些令人振奋的前沿方向:内在动机(让AI因‘好奇’而探索)、主动推理(让AI主动降低不确定性)以及形态计算(让机器人身体本身辅助计算)。这些均指向更‘生成性’的AI演进。
结语:从‘世界旁观者’迈向‘世界参与者’
这篇论文并非否定现有AI技术,而是呼吁视角的转换。当我们设计AI时,不应仅关注‘数据处理速度、参数规模’,更应追问:它是否在持续互动中理解世界?它能否主动探索而非被动预测?它是否拥有自身‘立场’而非单纯模仿人类?
未来的AI或许不再仅是更强大的‘聊天机器人’或‘视频生成器’,而是能像生命体般,通过主动触摸、移动、试探来‘活’在其环境中的系统。届时,AI才真正开始‘感知’世界——不再是世界的旁观者,而是作为世界的参与者。
---
本文基于Rafiee与Sutton的论文《Toward Enactive Artificial Intelligence》(arXiv:2605.24238)