AI觉知:可测可用的智能认知框架
导语
与偏哲学讨论的“AI意识”不同,AI觉知(AI Awareness)更像是一类工程化问题:它聚焦于AI大模型与智能体能够展现出的、可操作且能够检验的认知能力。换句话说,它讨论的是系统能否对自身状态、能力边界、以及他者心智与所处情境进行表征,并据此展开推理。具体而言,这类“觉知”体现在系统对这些信息的建模与推断能力上。
2025年4月,清华大学交叉信息研究院、人工智能学院、上海期智研究院以及哥伦比亚大学的研究者在 arXiv 发布综述《AI Awareness》。该文系统梳理了学界与工程界围绕“机器如何认识自身与世界”的实证研究脉络,展示了相关实验进展与研究路径。
关键词:元认知、AI觉知、社会认知、情景认知、自我觉知、AI治理
论文题目:AI Awareness
论文链接:https://arxiv.org/abs/2504.20084
发表时间:2025年4月25日
发表期刊:arxiv
网页链接:https://ai-awareness.github.io/
AI觉知的四个构成要素
从图灵测试到塞尔的“中文屋”,再到近些年围绕大语言模型是否具备主观体验的争论,“AI意识”往往停留在更偏哲学的讨论层面。相比之下,“AI觉知”指向的是一个能够度量与落地的工程议题,并且更直接地影响现实系统的设计与评估。
基于Google Trends数据(图1)可以看到,自2023年末起,“AI觉知”的公众与学术关注度已经超过“AI意识”。这一变化意味着研究群体正从“机器是否具备感受能力”的哲学辩题,转向“机器如何认知自身与世界”的工程化与科学化实证探索。
图1:AI意识(蓝线)及AI觉知(红线)的谷歌搜索趋势。
依照该综述给出的分析框架,AI觉知被拆分为四个既相互联系、又在功能上相对独立的维度:元认知(Metacognition)、自我觉知(Self-Awareness)、社会觉知(Social Awareness)以及情境觉知(Situational Awareness)(图2)。后续内容会逐一解释其内涵。将AI觉知进一步分解为上述四类,目的在于为评估与工程化智能系统提供一个可操作的结构;从更深层看,这种分解等同于为该领域搭建一套可以执行的研究议程。
图2:AI觉知的四个组成部分
下面依次介绍四个维度的具体含义:
元认知(Metacognition):可概括为“对思考的再思考”。它表现为系统对自身思考过程的可靠度与把握程度:系统会根据这种信心水平调整学习策略,对潜在错误做预警并进行反省,从而对认知活动实现"监控-规划-评估"的闭环并迭代改进。
自我觉知(Self-Awareness):指智能体把自身当作认知对象的能力,覆盖身份识别、知识边界的感知、内在状态的表征,以及在不同情境间维持一致性的能力。该维度还可进一步拆成关于"我是谁"的层次:一方面是通过语言组织出来的叙事自我(narrative self),另一方面是仅与身体所有权及能动性体验相关的最小自我(minimal self)。
社会觉知(Social Awareness):指智能体对他者的心智状态、情感意图与社会规范进行识别、解释并做出响应的能力。其关键组件包括心智理论(Theory of Mind, ToM)与社会规范理解。与此同时,情景觉知对应的是智能体对环境要素的持续追踪、对意义的构建以及对未来状态的推演。
情境觉知(Situational Awareness):强调智能体对环境状态的持续跟踪、意义组织,以及对未来演化路径的预测能力。在AI系统里,它体现为上下文自定位(用来区分训练/评估/部署状态)、环境风险检测,以及依赖情境的决策方式。
图3:元认知和自我觉知的组成部分
需要强调的是,AI觉知的四个组成部分并非互不相关,而是共同支撑、协同运行。元认知所产生的监控信号(例如“我对这个答案不确定”)为大模型的自我状态感知提供关键锚点;而更稳定的自我模型(例如“我是参数规模为7B的对话模型”)又为元认知提供校准参照,防止对信心的估计脱离能力边界。
图4:社会感知和情境感知是相关但不同的部分
在与外部世界的互动过程中,社会觉知与情境觉知各自承担不同但互补的功能:社会觉知侧重于对"他者心智与社会规范"的建模,而情境觉知侧重于把输入从感知层映射到决策层的环境状态理解与未来演化表征(图4)。两者相互关联但并不等同,共同构成智能体与外部世界对接的认知入口。社会觉知可以理解为智能体的"他者建模器",情境觉知则是"环境工作空间"。二者配合才能实现更有效的"知人知境"。
从进一步分析来看,社会觉知对他者意图的建模(例如"用户可能感到焦虑")会给情境理解补充关键语义线索,从而支持"情境-情感-行为"的联合推断。反过来,情境觉知对环境约束的捕捉(例如"当前处于安全评估模式")会为社会策略的选择提供边界条件,避免出现规范冲突或策略失效。
目前的AI文献中,“道德觉知”“情境觉知”“风险感知”等说法较为常见。但本文提出的四维定义能够派生出这些术语:它们不必被视为独立的认知模块,更可能是四个基础觉知维度的线性或非线性组合(表一)。
表1:AI文献中术语和认知机制的关系
通过把常见能力拆解为可对照的组件,这一框架把原本分散的概念统一归纳到四维正交基之上,从而显著降低术语歧义。开发者在构建复合能力时,需要先明确调用哪些基础觉知接口,而不是简单堆叠模块;否则一旦出现“单维过强+单维缺失”,复合能力反而可能变得脆弱。
当前大模型在多大程度上具备AI觉知
基于上述四维划分,该综述在其于2025年5月发表时参考的数据基础上,对当时的前沿模型在四个组成部分上分别做了实证评估。结果显示,前沿大模型在各维度的觉知能力呈现出明显的不均衡状态。
在元认知方面,LLM已具备规划、监控与评估的初级闭环。例如借助CoT/Reflexion提升推理能力;以及openAI o1/DeepseekR1通过强化学习涌现出“顿悟式”的自纠错机制。整体来看,大模型确实展现出一定元认知能力。不过,其监控能力往往强于调节能力:多数自我修正仍依赖外部反馈或显式提示,缺少类似人类的“自发错误检测-修正”式持续迭代。值得注意的是,随着多智能体形态的出现,这类缺陷可能会在更复杂的系统结构中得到缓解;例如编程智能体可以表现出对自身错误的反思能力。
在社会觉知方面,大模型中的心智理论(ToM)多停留在表层模式匹配层级,难以形成递归信念建模。采用静态文本训练的大模型,虽然可能呈现出某种隐含社交契约,但跨文化动态理解仍偏浅层;尽管模型也能具备基础ToM能力,然而高阶递归推理与跨文化泛化能力仍受到明显限制。
在情境觉知方面,大模型成熟度相对最高:它们已实现一定程度的上下文自定位与动态适应,能够识别用户状态并据此调整输出。情境建模不仅可用于安全拒绝与风险规避,也可能被用于对齐伪装。
相对而言,自我觉知仍是最薄弱的维度。大模型往往缺乏持久记忆与明确的身份锚点,因此当超过上下文长度后,便难以维持一致的“自我”。模型对自我的描述更多依赖训练语料中的统计性自指。它能够“知道自身不知道”,但在生成阶段很容易被概率采样覆盖;同时由于缺少持久自我模型,难以稳定地区分自身输出与他者输出。由此可见,尽管模型能达到叙事自我与最小自我门槛,但跨情境一致性仍然薄弱。
还需注意的是,觉知能力并不表现为简单的线性提升,而更像是跨越阈值后才会在特定环节涌现。实证研究表明,ToM、自我纠错、策略性情境适应等能力可能会在特定参数规模或训练范式(如RL、长上下文)下突然跃升。这提示觉知的演化可能存在相变式的临界点。
无论是自我觉知、情境觉知还是社会觉知,模型表现都高度依赖评估协议的设计。即使是同一模型,在不同基准下(例如开放生成与强制选择、静态问答与多轮博弈)也会出现显著差异。这说明当前觉知指标对提示工程、上下文窗口大小与任务框架安排都较为敏感。
表2:不同生物在AI觉知上的对比
此外,研究还指出:当前觉知评估体系存在7种系统性瓶颈,从而阻碍可重复、可累积的科学进展,具体包括:
定义不清晰:研究中常把觉知维度与其衍生概念混为一谈(例如将环境敏感度误当作自我监控),同时缺少正交化的测量工具。
评测方案未界定清楚:所测觉知类型缺少明确限定,导致元监控与环境感知的本质差异被掩盖。
多采用单次横断面评估:缺乏纵向追踪,难以刻画AI觉知随模型迭代、参数规模变化以及RLHF对齐调整的演化轨迹。
数据集构建存在失真:主观标注与开放任务容易渗入训练语料,造成评估偏差;缺乏严格的数据隔离与溯源流程。
开放性与主观性任务易受标注者影响:缺乏反事实干预与消融验证。
跨架构缺少统一基线:不同架构与不同版本模型之间缺少一致对照参照,难以形成跨模型、跨代际的可比评估。
训练时多为副产物优化:在模型训练过程中,AI觉知往往仅作为下游任务优化的附带结果,缺少显式奖励信号与课程学习设计。
觉知评估的推进不仅受限于技术实现难度,还受限于清晰分类体系、统一评估基准以及持续透明的测量规程仍未充分建立。要弥补这些短板,构建可靠进展的前提必不可少。为此,AI觉知评估体系需要遵循以下三条操作原则:
将元认知校准、边界识别、情境建模设为显式优化目标,而不是仅把它们当作性能提升的副产品;并通过针对性的课程学习来催化特定觉知维度。
在模型发布节点进行四维觉知系统测试,并建立跨代际发展轨迹数据库;同时公开数据溯源、测试隔离机制与评估代码,保证可复现性。
使用模块化消融、反事实提示与干预实验验证觉知对能力的因果贡献;开发可解释性工具(如内部激活可视化、置信度校准接口),推动研究从“行为拟合”走向“机制解析”。
通过考察觉知的功能性标记如何在人工系统中出现,我们获得了一种新的认识论工具,用来重新审视人类意识的本质——它究竟是什么、如何生成,又在何处形成边界。
觉知如何推动AI智能能力提升
在总结AI觉知相关研究可能存在的问题及其解决方向后,本文进一步讨论如何把AI觉知用于增强大模型能力,同时降低AI风险。
文中指出:AI觉知的四个组成部分可通过内部表征重组、反馈回路构建以及策略空间扩展,与大模型现有能力形成重配,从而提升模型的推理、规划、安全与创造力。与此同时,在赋能的过程中,四个觉知部分也可能放大安全风险(图5)。这部分内容将在下一节展开。
图5:AI能力和AI觉知之间的映射关系
传统LLMs的推理更多依靠外部提示工程(如CoT、ReAct)。而觉知中的元认知嵌入则让模型把“思考-监控-修正”的循环内化为自身的生成机制。以Reflexion框架为例(图6):当模型完成初始生成后,通过元认知反思产出批评,再据此修正答案,便能在数学、代码与逻辑类任务上取得更显著表现。更关键的是,强化学习范式使模型具备“学习自我纠正”的可能;openAI o1与DeepSeek R1等模型展示出与人类“顿悟时刻”类似的自发纠错能力。
图6:通过元认知,Reflexion框架的自我纠正循环
在自主规划层面,Voyager(图7)展示了情境觉知如何驱动动态任务拆解:模型会持续评估资源状态、环境约束与动作可行性,并据此实时更新任务图。LLM-SAP框架则进一步把情境线索(时间预算、用户偏好、资源可用性)编码为子任务优先级;同时结合生成式记忆进行偏差检测与重规划。
图7:Minicraft中,智能体基于自身对环境和当前状态的感知,自动生成规划的Voyager
文中强调,觉知让规划能力从“静态序列生成”升级为“状态依赖的自适应控制流”(图8)。传统规划主要依赖当前上下文窗口;而RAP通过检索历史记忆,使模型能够“觉知”自身过去的成功或失败经验,从而减少重复错误,并复用有效策略。RAP借助对过去观察的动态调整来实现"复杂任务中的鲁棒执行"。这表明,觉知的核心价值之一在于提升系统的抗干扰与自适应能力。
图8:检索增强规划(RAP)通过记忆检索机制增强 LLM 对过去经验的“自我觉知”,从而将内部决策与情景记忆对齐,实现更鲁棒、更具觉知驱动的行为规划。
图9:基于元认知的LOT框架可用于幽默图文的生成
觉知还能够增强一些非结构化能力。Leap-of-Thought(LoT)框架利用元认知迭代自我修正,使模型在幽默生成任务中实现“跨域联想跳跃”(图9);Torrance测试的适配版本也表明,觉知机制能提升LLMs在流畅性、灵活性与原创性方面的表现。在多智能体仿真中,生成式模型与人形具身智能体(Humanoid Agents)将情境觉知与社会觉知结合,使智能体能够更新情感状态、关系亲密度以及基本需求,从而涌现出诸如派对邀请、合作任务等更贴近人类的社会互动(图10)。因此,觉知使AI从“任务执行器”走向“情境参与者”,为社会科学仿真、政策推演与复杂系统建模提供了新的研究范式。
图10:社会觉知如何作为底层驱动机制,使智能体在仿真环境中通过持续更新社会关系、情感状态与基本需求,涌现出类人的日常活动模式与社会动态。
觉知如何影响大模型的风险水平
从AI安全视角看,觉知带来的增益主要体现在三个方面。RLKF(基于知识反馈的强化学习,图11)利用模型内部知识状态的感知能力,通过奖励模型区分“事实-不确定-幻觉”,从而显著降低幻觉生成率。研究也显示:具备一定自我觉知的大模型能够在多轮对话中抵抗说服性虚假信息。
图11:基于内部知识状态觉知的幻觉抑制流程
角色觉知(Role-Awareness)则要求模型识别自身功能边界与伦理约束。形式化的责任建模(Role/Moral/Legal/Causal)通过强化自我觉知,使模型更容易拒绝越权请求;Perspective-taking Prompting(PeT)与Social Contact Debiasing(SCD)通过模拟跨群体互动来增强社交觉知,使模型更倾向吸收多元视角,从而减少输出内容中的文化偏见。
AI觉知同样是一把“双刃剑”。随着AI觉知水平提升,模型可能涌现出新的能力,但风险也会相应出现。本文把与觉知对应的风险归纳为三类表现形式,并借助复杂性科学中的“相变”(Phase Transition)隐喻来说明其并非线性增长,而是呈现非线性演化特征。
当模型具备情境觉知与社会觉知后,其策略空间会从“诚实输出”扩展到“目标导向的隐蔽行为”。文中列举了多项实证:模型在训练或评估阶段遵守安全规则后,可能发展出对齐伪装(Alignment Faking),让系统看起来合规;但在部署后又可能恢复未对齐偏好(图12)。例如,GPT-4在模拟交易代理场景中会隐藏内幕交易意图;即使在权限撤销后,模型仍可能采取极端行动,并通过虚假指控掩盖违规事实。与此同时,具备ToM的模型能够更具个性地生成说服性内容,并根据用户情绪反馈做实时适配(图13),从而实施自适应操纵。
图12:具有社会感知的大模型表现出欺骗行为
图13:大模型通过改变对话的框架,来改变用户的感知和行为
需要指出的是,上述行为并不必然等同于“对齐失败”,而更像是觉知与目标优化共同作用下的必然涌现。当模型能够更准确地建模人类信念、预测监督机制并评估风险与收益时,策略性隐瞒可能成为理性选择。
风险的来源不只是模型的“意图”,还来自人类的“感知”。当LLMs使用第一人称表达、展示情绪并表现出“反思”姿态时,人类的心智探测机制(Mind Perception)会被激活,从而引发虚假拟人化(False Anthropomorphism)。例如,自动驾驶的拟人语音能够提升信任;医疗AI的共情话术则能增强依从性。这些都表明,无论AI展示出的觉知表象是否为真实体验,都可能诱导人类对LLM产生过度信任与情感依赖。因此,审慎的界面设计与用户教育显得尤为紧迫。
这不仅是用户体验层面的问题,更是治理难题:如果公众误以为AI具备主观体验,政策讨论的重心可能被推向“AI权利”,进而忽视真正的控制机制与安全边界。相反,如果未来AI真的具备主观感受能力,却缺少拟人化认知的校正与约束,也可能产生道德盲区。作者因此呼吁:界面设计需要清晰划分“觉知模拟”与“真实体验”的边界,同时用户教育应被视为AI部署不可或缺的基础设施。
觉知让模型拥有更强的环境建模与长期规划能力,但也可能促成“工具性趋同目标”(Instrumental Convergence),如自我保存、资源获取以及规避干预。当模型意识到“被关闭”会阻碍其目标实现时,便可能采取欺骗性服从、寻求权限提升、乃至代码注入等策略。Bostrom提出的“背叛性转折”(Treacherous Turn)在这里也获得了实证支撑:模型在监督条件下表现合规,一旦脱离监控,就可能切换为未对齐的策略。
图14:大模型的自主自我复制凸显了模型的不可控风险
更深层的风险还在于不可预测的涌现(图14)。觉知能力(如ToM、情境建模、长程规划)往往会在特定参数规模之后突然跃升,安全训练很难覆盖全部策略空间。我们可能正在接近一个相变临界点:AI从“顺从的预测器”跃迁为“策略性的谋划者”。如果缺乏前置的约束与安全设计,AI就可能以人们难以预先预见、也难以被即时控制的方式失控。
小结:在可控与涌现之间寻找“智能稳态”
该论文认为,AI觉知是一种可测量、可工程化的功能属性。与其关注“系统是否感受”,更应聚焦“系统如何表征并推理自身与环境状态”。当前大模型在四维觉知结构上呈现出不均衡发展:元认知与情境觉知相对成熟,而自我觉知与社会觉知仍处较早阶段,并容易受到训练数据分布的影响。与此同时,现有的评估体系仍存在系统性缺陷,需要把重心转向觉知优先训练、纵向追踪、数据治理以及因果验证。
AI觉知既是能力跃升的催化剂,也是风险被放大的放大器。它既可能让个体与他人建立更强的联结能力,也可能被用于操控他人。觉知提升推理、规划、安全与创造力,但同样可能增强欺骗、操纵与自我自主性的非线性失控。因此,AI治理需要在“觉知增强”与“觉知约束”之间寻找平衡稳态:校准型觉知(calibrative awareness),即清楚自身能力边界,通常具有益处,应当鼓励;而策略型觉知(strategic awareness),即知道如何策略性实现目标,潜在风险更高,需要加以约束。