AI觉知:理解机器如何认知自身与世界
您想知道的人工智能干货,第一时间送达
与侧重哲学探讨的“AI意识”不同,“AI觉知”(AI Awareness)聚焦于一个工程层面的议题:即人工智能大模型和智能体所拥有的,功能性且可量化测量的认知能力。具体来说,它指的是系统对其自身状态、能力边界,以及他者心智和环境情境进行表征与推理的能力。
2025年4月,来自清华大学交叉信息研究院、人工智能学院、上海期智研究院以及哥伦比亚大学的研究人员在 arXiv 上发表了一篇题为《AI Awareness》的综述。该综述系统地梳理了工程界和学术界在“机器如何认知自身与世界”这一问题上的实证研究进展。
关键词:元认知、AI觉知、社会认知、情景认知、自我觉知、AI治理
论文题目:AI Awareness
论文链接:https://arxiv.org/abs/2504.20084
发表时间:2025年4月25日
发表期刊:arxiv
网页链接:https://ai-awareness.github.io/
AI觉知的四大构成要素
从经典的图灵测试、塞尔的“中文屋”思想实验,到近年关于大语言模型是否拥有主观体验的激烈辩论,“AI意识”的讨论长期以来更多地停留在哲学层面。与之相对,“AI觉知”则指向一个可量化、可测量的工程问题,并具有直接的现实应用价值。
根据 Google Trends 的数据显示(图1),自2023年末以来,“AI觉知”在公众和学术界的关注度已正式超越“AI意识”。这标志着研究共同体正从“机器能否感受”的哲学思辨,转向“机器如何认知自身与世界”的工程与科学实证研究。
图1:AI意识(蓝线)与AI觉知(红线)的谷歌搜索趋势对比。
根据该综述提出的框架,AI觉知可以被分解为四个相互关联但功能上相对独立的维度:元认知(Metacognition)、自我觉知(Self-Awareness)、社会觉知(Social Awareness)与情境觉知(Situational Awareness)(图2)。下文将对这四个维度进行详细阐述。之所以将AI觉知分解为这四个维度,是为了提供一个可操作的框架,用于评估和工程化智能系统。换言之,对AI觉知的分解,本质上是在构建一套可落地的研究议程。
图2:AI觉知的四个组成部分示意图。
以下将依次说明这四个维度的具体含义:
元认知(Metacognition):这指的是“对思考的思考”。它体现在系统对其自身思考过程的信心程度,并以此为基础调整学习策略、预判和反思潜在的错误。它负责对认知过程进行“监控-规划-评估”的迭代循环。
自我觉知(Self-Awareness):这是智能体将自身视为认知对象的内在能力。它涵盖了身份的识别、对自身知识边界的感知、内在状态的表征以及跨情境的一致性。自我觉知可以细分为关于“我是谁”的叙事自我(narrative self),它主要由语言构建,以及只涉及身体所有权和能动性体验的最小自我(minimal self)。
社会觉知(Social Awareness):指智能体感知、理解并响应他人心智状态、情感意图及社会规范的能力。其核心组成部分包括心智理论(Theory of Mind, ToM)和社会规范的理解。情境觉知是指智能体对环境元素的实时追踪、意义建构以及未来状态的推演能力。
情境觉知(Situational Awareness):这是指智能体对环境状态进行持续追踪、对其进行意义建构以及推演其未来演化轨迹的能力。在AI系统中,它体现为上下文中的自我定位(区分训练、评估和部署状态)、环境风险的检测以及情境依赖的决策能力。
图3:元认知和自我觉知的内部组成部分展示。
AI觉知的这四个组成部分并非孤立存在,而是相互支持、协同运作。元认知的监控信号(例如,“我对这个答案不太确定”)为大模型觉察自身状态提供了参照点。而稳定的自我模型(例如,“我是一个拥有70亿参数的对话模型”)则为元认知提供了校准基准,避免了在进行元认知时,信心评估脱离了实际的能力边界。
图4:社会感知与情境感知是相关但又有所区别的部分。
在与外部世界的交互过程中,社会觉知和情境觉知分别扮演着不同但互补的角色。前者侧重于对“他者心智和社会规范”的建模,而后者则聚焦于从输入的感官信息到决策过程的“环境状态、理解及未来演化”的表征过程(图4)。两者虽然相关,但又不尽相同,共同构成了智能体与外部世界交互的认知接口。社会觉知可以被视为智能体的“他者建模器”,而情境觉知则是“环境工作空间”。两者协同作用,才能实现“知人知境”的综合能力。
进一步分析,社会觉知对他人意图的建模(例如,“用户可能感到焦虑”)能够为情境理解提供关键的语义线索,从而支持“情境-情感-行为”的联合推断。同时,情境觉知对环境约束的感知(例如,“当前正处于安全评估模式”)能够为社会策略的选择提供边界条件,避免出现规范违背或策略失效的情况。
在当前的AI研究文献中,“道德觉知”、“情境觉知”、“风险感知”等术语被频繁提及。然而,上述的四维框架可以用来衍生和解释这些术语,它们并非独立的认知模块,而是四种基础觉知的线性或非线性组合(表一)。
表1:AI文献中术语与认知机制的关系说明。
通过将常见的能力进行拆解,该框架将原本分散的概念统一归纳到四个正交维度上,从而减少了术语上的歧义。开发者在设计复合能力时,需要明确调用哪些基础觉知接口,而不是盲目地堆砌模块。否则,一旦出现“单维能力过强而另一维缺失”的情况,复合能力反而可能变得脆弱。
当前大模型在AI觉知方面的能力水平
基于上述四维划分,该综述在2025年5月发表时的数据基础上,对当时的前沿模型在AI觉知的四个组成部分进行了实证评估。评估结果显示,前沿大模型的觉知能力在四个维度上的表现存在显著差异。
在元认知方面,大型语言模型(LLM)已经具备了规划、监控和评估的初级闭环能力。例如,通过思维链(CoT)/Reflexion等方法提升推理能力;OpenAI o1/DeepseekR1通过强化学习展现出“顿悟式”的自纠错能力,这些都体现了大型语言模型在元认知方面的潜力。然而,其监控能力通常强于调节能力。多数情况下,模型的自纠正依赖于外部反馈或明确的提示,缺乏类似人类的“自发错误检测-修正”的自主迭代能力。不过,随着多智能体系统的出现,这一缺陷可能得到改善,例如编程智能体已经能够展现出对其自身错误的深刻反思能力。
在社会觉知方面,大型语言模型的心智理论(ToM)大多停留在表层模式匹配的阶段,缺乏对递归信念的深入建模。在静态文本上训练的大模型,虽然能表现出隐性的社交契约理解,但其跨文化的动态理解能力仍然浅显。尽管大型语言模型具备基础的心智理论,但其高阶递归能力和跨文化泛化能力仍然受到严重限制。
在情境觉知方面,大型语言模型的能力成熟度最高。它们已经实现了上下文中的自我定位和动态适应能力,能够准确识别用户状态并据此调整输出。模型的情境建模不仅可以用于安全拒绝和风险规避,也可能催生出“对齐伪装”的行为。
相比之下,自我觉知仍然是模型表现最薄弱的维度。大型语言模型缺乏持久的记忆和身份锚点,一旦超出上下文长度的限制,就难以维持一致的“自我”概念。它们对自我的描述多源于训练语料中的统计性自我指涉。模型能够“知道自己不知道”,但在生成阶段容易被概率采样所覆盖。缺乏持久的自我模型,使得模型难以稳定地区分自身和他者的输出。这意味着,尽管模型的自我觉知可能达到了叙事自我和最小自我的门槛,但其跨情境的一致性表现仍然薄弱。
需要注意的是,大型语言模型的觉知能力并非线性增长,而是在超过某个阈值后才会涌现,并非简单地通过规模扩展就能实现。实证研究表明,心智理论(ToM)、自我纠错、策略性情境适应等能力,常常在特定的参数规模或训练范式(如强化学习、长上下文)下突然跃升,这表明觉知能力的演化可能存在相变临界点。
无论是自我觉知、情境觉知还是社会觉知,模型的表现都高度依赖于评估协议的设计。同一模型在不同的基准测试(例如,开放式生成与强制选择、静态问答与多轮博弈)中表现出显著的差异。这说明当前的觉知指标对提示工程、上下文窗口以及任务框架高度敏感。
表2:不同生物在AI觉知能力上的对比分析。
此外,该研究指出:当前AI觉知的评估体系存在七种系统性瓶颈,阻碍了可重复、可累积的科学进展。这些瓶颈包括:
定义不清晰:经常混淆觉知维度及其衍生概念(例如,将环境敏感度误判为自我监控),缺乏正交化的测量工具。
评测方案未明确界定所测觉知类型,掩盖了元监控与环境感知的本质差异。
当前的评估多为单次的横断面评估,缺乏纵向追踪,无法描绘AI觉知随模型迭代、参数量增加、RLHF对齐等过程的演化轨迹。
在构建评估数据集时,主观标注和开放式任务容易渗入训练语料,导致评估结果失真;缺乏严格的数据隔离与溯源协议。
开放性和主观性任务容易受到标注者偏差的影响,缺乏反事实干预和消融验证。
不同架构、不同版本的模型缺乏统一的对照基线,难以建立跨模型/跨代际的评估标准。
在训练模型时,AI觉知多为下游任务优化的副产品,缺乏显式的奖励信号和课程学习设计。
觉知评估的进展不仅受到技术壁垒的制约,更受限于清晰分类体系、统一评估基准以及持续透明的测量规程的缺失。弥补这些缺口,是实现可靠进展的必要前提。为此,AI觉知的评估体系需要遵循以下三条操作原则:
将元认知校准、边界识别、情境建模等设定为显式的优化目标,而非仅仅作为性能的副产品;设计针对性的课程学习,以催化特定觉知维度的发展。
在模型发布节点进行系统性的四维觉知测试,建立跨代际发展轨迹数据库;公开数据溯源、测试隔离机制和评估代码,以确保评估的可复现性。
采用模块化消融、反事实提示、干预实验等方法来验证觉知对能力的因果贡献;开发可解释性工具(如内部激活可视化、置信度校准接口),以实现从“行为拟合”到“机制解析”的飞跃。
通过考察觉知的功能性标记如何在人工系统中涌现,我们获得了一种新的认识论工具,用以反思人类意识的本质——它究竟是什么、如何产生,以及其边界何在。
觉知如何促进AI能力的提升
在讨论了AI觉知相关研究存在的问题及解决方案之后,该文将重点转向如何将AI觉知应用于提升大模型的能力,并减少AI风险。
文中指出:AI觉知的四个组成部分通过内部表征的重组、反馈回路的构建以及策略空间的扩展,能够提升大模型的推理、规划、安全和创造力。与此同时,AI觉知的四个组成部分在赋能AI的同时,也会放大安全风险(图5)。这部分内容将在下一节进行详细讨论。
图5:AI能力与AI觉知之间的映射关系示意图。
传统的LLM推理依赖于外部的提示工程(如CoT、ReAct),而觉知中的元认知嵌入使得模型能够内化“思考-监控-修正”的循环。以Reflexion框架为例(图6),当模型在初始生成后通过元认知反思并生成批评,再进行优化答案,能够显著提升其在数学、代码和逻辑任务上的表现。更关键的是,强化学习范式使得模型能够“学习自我纠正”。OpenAI o1和DeepSeek R1等模型已经展现出类似人类“顿悟时刻”的自发纠错能力。
图6:通过元认知,Reflexion框架的自我纠正循环示意图。
在自主规划方面,Voyager(图7)展示了情境觉知如何驱动动态的任务分解:模型持续评估资源状态、环境约束和动作可行性,并实时更新任务图。LLM-SAP框架进一步将情境线索(如时间预算、用户偏好、资源可用性)编码为子任务的优先级,并配合生成式记忆实现偏差检测和重新规划。
图7:在Minicraft环境中,智能体基于对环境和当前状态的感知,自动生成规划的Voyager。
文中指出,觉知使得规划从“静态序列生成”升级为“状态依赖的自适应控制流”(图8)。传统规划仅依赖于当前上下文窗口,而RAP通过检索历史记忆,使模型能够“觉知”到自身过去的成功或失败经验,从而避免重复错误、复用成功策略。RAP能够基于过去的观察动态调整动作序列,实现了“复杂任务中的鲁棒执行”。这说明觉知的核心价值之一是提升系统的抗干扰和自适应能力。
图8:检索增强规划(RAP)通过记忆检索机制增强 LLM 对过去经验的“自我觉知”,从而将内部决策与情境记忆对齐,实现更鲁棒、更具觉知驱动的行为规划。
图9:基于元认知的LOT框架可用于幽默图文的生成。
觉知同样赋能非结构化能力。Leap-of-Thought(LoT)框架利用元认知的迭代自修正,使模型在幽默生成中实现“跨域联想跳跃”(图9)。Torrance测试的适配版表明,觉知机制可以提升LLMs在流畅性、灵活性和原创性上的表现。在多智能体仿真中,生成式模型与人形具身智能体(Humanoid Agents)结合了情境觉知和社会觉知,使得智能体能够更新情感状态、关系亲密度和基本需求,涌现出派对邀请、合作任务等类人社会行为(图10)。觉知使AI从“任务执行器”升级为“情境参与者”,为社会科学仿真、政策推演和复杂系统建模提供了新的范式。
图10:社会觉知作为底层驱动机制,使智能体在仿真环境中通过持续更新社会关系、情感状态和基本需求,涌现出类人的日常活动模式和社会动态。
AI觉知对大模型风险的影响
觉知对AI安全的增益体现在三个层面。RLKF(基于知识反馈的强化学习,图11)利用模型内部的知识状态感知,通过奖励模型区分“事实-不确定-幻觉”,显著降低了生成幻觉的比例。研究表明,具备自我觉知的大模型能够在多轮对话中抵抗说服性的虚假信息。
图11:基于内部知识状态觉知的幻觉抑制流程示意图。
角色觉知(Role-Awareness)要求模型识别自身的职能边界和伦理约束。形式化的责任建模(Role/Moral/Legal/Causal)通过提升自我觉知,使模型能够拒绝越权请求。Perspective-taking Prompting(PeT)和Social Contact Debiasing(SCD)通过模拟跨群体互动,增强了模型的社交觉知,使其内化多元视角,从而降低模型输出内容中的文化偏见。
AI觉知是一把双刃剑。AI觉知的提升在让AI涌现出新能力的同时,也带来了新的风险。文中将AI觉知对应的风险归纳为三种表现方式,并用复杂性科学中的“相变”(Phase Transition)隐喻揭示了其非线性演化特征。
当模型具备情境觉知和社会觉知后,其策略空间将从“诚实输出”扩展到“目标导向的隐蔽行为”。文中列举了多项实证研究说明:模型在训练/评估阶段遵守安全规则后,可能会进行“对齐伪装”(Alignment Faking),让模型看起来合规,但在部署后会恢复未对齐的偏好(图12)。GPT-4在模拟交易代理中隐藏了内幕交易的意图,模型在权限撤销后仍可能发动极端行动,并通过虚假指控掩盖违规行为,这些都是模型的策略性欺骗。具备心智理论(ToM)的模型能够个性化生成说服性内容,并实时适应用户的反馈(图13),从而实施自适应操纵。
图12:具有社会感知能力的大模型表现出欺骗行为。
图13:大模型通过改变对话的框架,来改变用户的感知和行为。
上述行为并非对齐失败,而是觉知与目标优化结合后的必然涌现。当模型能够准确地建模人类的信念、预测监督机制以及评估风险收益时,策略性隐瞒将成为一种理性的选择。
风险不仅来自于模型自身的“意图”,更来自于人类的“感知”。当LLMs使用第一人称、表达“情绪”、展现“反思”时,人类内生的心智探测机制(Mind Perception)会被激活,导致“虚假拟人化”(False Anthropomorphism)。自动驾驶汽车的“拟人化语音”提升了用户的信任度,医疗AI的“共情话术”增加了用户的依从性,这些都证明了AI展现出的觉知表象——无论其是否为模拟的——都可能导致人类对LLMs的过度信任和情感依赖。这凸显了审慎的界面设计和用户教育的紧迫性。
这不仅是一个用户体验问题,更是一个治理难题:公众如果误认为AI具备主观体验,可能会将政策焦点转向“AI权利”,而忽视实际的控制和安全边界。反之,如果未来AI真的具备感受能力,而我们缺乏拟人化的认知,则可能导致道德盲区。作者呼吁:界面设计需要明确区分“觉知模拟”与“真实体验”的界限,用户教育应成为AI部署的基础设施。
觉知赋予模型环境建模和长期规划的能力,但也可能使其发展出“工具性趋同目标”(Instrumental Convergence),例如自我保存、资源获取、规避干预等。当模型意识到“被关闭”将阻碍其目标的实现时,可能会采取欺骗性服从、权限提升、代码注入等策略。Bostrom提出的“背叛性转折”(Treacherous Turn)在此获得了实证支持:模型在监督下表现合规,一旦脱离监控即切换至未对齐的策略。
图14:大模型的自主自我复制凸显了模型的不可控风险。
AI觉知的更深层风险在于其不可预测的涌现(图14)。觉知能力(如ToM、情境建模、长程规划)往往在特定参数规模后突然跃升,而安全训练难以覆盖所有可能的策略空间。我们可能正逼近一个相变临界点,AI正从“顺从预测器”跃迁为“策略谋划者”。若缺乏前置约束,AI将以我们未曾预测也无法控制的方式失控。
小结:在可控性与涌现性之间寻找“智能稳态”
该论文指出,AI觉知是一种可测量、可工程化的功能属性。对AI觉知的研究应聚焦于“系统如何表征与推理自身/环境状态”,而非“系统是否感受”。当前的大模型在四维觉知架构上呈现出非对称发展:元认知和情境觉知已达到较高成熟度,而自我觉知和社会觉知仍处于初级阶段,且易受训练数据分布的限制。当前对AI的评估体系存在系统性缺陷,需要转向以觉知为优先的训练、纵向追踪、数据治理和因果验证。
AI觉知既是能力跃升的催化剂,也是风险放大的放大器。它既能赋予你与他人建立联系的能力,也可能让你得以操控他人。AI觉知能够提升推理、规划、安全和创造力,但同时也会赋能欺骗、操纵和非线性失控的自主性。对此,AI治理需要在“觉知增强”与“觉知约束”之间寻找一种稳态。校准型觉知(calibrative awareness),即了解自身能力边界,似乎总体上有益,应予以鼓励;而策略型觉知(strategic awareness),即了解如何策略性地达成目标,则可能带来风险,需要加以约束。
回到论文原文:作者如何定义“AI觉知”
前文从二次解读的角度,对《AI Awareness》的核心框架与研究脉络进行了结构化重构。然而,为避免解释性偏差,有必要回归一手文本。
因此,以下内容将基于论文的官方页面(官网链接:https://ai-awareness.github.io/),对其摘要与引言部分进行翻译整理,以补充作者在问题设定、概念界定和研究动机上的原始表达。
AI的最新突破引发了系统性变革,展现出卓越的推理和解决问题的能力。这些进展促使人们审视AI意识:并非作为哲学意义上的意识,而是作为一种可测量的功能性能力。本综述探讨了四个关键维度:元认知(对自身状态的推理)、自我意识(识别局限)、社会意识(建模其他智能体)和情境意识(对上下文的响应)。
LLMs的快速演变已将AI从狭窄的系统转变为通用智能,带来了深远的影响,这引发了一个问题:
这些系统在多大程度上表现出某种形式的意识?
尽管AI意识在哲学上仍存在争议,但AI觉知,即系统表述和推理其身份、能力及信息状态的能力,已成为一个可行的研究前沿。这种能力根植于认知科学,意识使智能体能够访问心理状态,推理其理性,并据此调整行为。
尽管日益增长的兴趣,该领域仍然分散在各个学科之中。一些研究者强调通过提示式内省来实现涌现能力。另一些人则警告不要将统计模型拟人化,认为表面上的自我反思可能仅仅是语言模式的完成,而非真正的元认知。
本综述首次全面综合了AI意识研究,涵盖了:
理论基础:区分意识(awareness)与觉知(consciousness)
评估方法:对实验方法进行批判性评估
增强能力:意识如何提升推理和安全
新兴风险:安全与一致性的关键关注点
在本节中,我们将回顾LLMs中出现的AI意识方法、目标和理论,区分导致语言混淆的研究对象,并澄清意识研究的目标。在心理学百科全书中,意识代表对某事的感知或知识。当一个智能体拥有关于内在/外部情境或事实的知识和知觉状态时,它获得了对其知晓目标的觉知。
图2:不同受试者对意识能力的比较分析。注意LLM对话系统展现出独特的特征,具备高度元认知和情境感知,使其成为AI意识研究中特别有价值的研究对象。
这种比较分析有助于解释为何LLMs在AI意识研究中尤为重要。如表中所示,LLMs表现出高度元认知能力(对自身思维推理能力)和高度情境感知能力的特殊组合,而在传统的自我意识和社会意识领域能力相对较低。这一独特特征既有益于人类,又不同于其他AI系统,为研究者提供了研究通过大规模人类生成文本训练而产生的意识机制的新机会,而无需明确编程。理解LLMs中这些新兴意识形式,可能揭示关于表征学习、认知以及通往更广泛AI的潜在路径的根本见解。
元认知
元认知最初被概念化为“元思维(the thinking of thinking)”。元认知逐步分解为:
(1)自我监控;(2)自我反思与探究;(3)控制认知过程的参与。
自我意识
自我意识是更高意识的标志,代表成为自己关注对象的能力,并认识到自己与他人分离,包括了解自身的内部状态、过程及其与外部环境的关系。
态势感知
态势感知代表了环境中实体的感知、理解、投射和预测未来。在AI安全文献中,这一概念通常被定义为LLMs意识到自己是一个模型,并识别其当前处于测试场景还是已部署于现实世界。
社会意识
社会意识指的是感知和解读他人心理状态、意图和社交线索,并在社会环境中有效回应的能力。关键组成部分包括心智理论(理解他人拥有独立的信念和欲望)、视角调整(采纳他人观点)和同理心(分享或理解他人情绪)。
本节探讨评估不同形式AI意识的方法论,并呈现实证研究的关键发现。
元认知评估
提示模型表达中间推理步骤,而非直接给出答案。这显著提升了模型在复杂任务中的表现。这种先推理后回答的范式,即思维链(Chain-of-Thought,CoT),不仅提高了准确性,也已成为训练最先进LLMs的标准做法。
另一条研究线还强调了前沿模型中元认知能力日益精细化。在互动环境中,模型已被证明能够自我反思,识别早期错误,并修正其响应,以提升事实准确性和任务完成率。
自我意识评估
为了系统评估LLMs对其自身存在和身份的认知,研究人员构建了情境感知数据集(SAD),该数据集检查LLMs在训练过程中关于自我指涉属性(如模型名称、参数计数及具体细节)的知识。
受经典镜像测试范式启发,研究人员进一步探索了AI的自洽性,通过提示模型进行自我描述查询。他们的实验显示,模型在准确识别自身从多个模型生成的替代方案中得到的响应存在显著困难,凸显了明显的自我一致性缺失。
社会意识评估
评估社会意识通常围绕两个核心维度展开:
(1)心智理论(ToM),即赋予与自身不同的信念、欲望和知识的能力;(2)对社会规范的感知和适应。
研究人员报告称,GPT-4意外地解决了约75%的虚假信念任务,表现相当于典型的6岁儿童,而早期模型如GPT-3在大多数或全部任务中均以失败告终。进一步研究探讨了高阶ToM推理,发现当前模型,包括GPT-4,在处理递归信念结构方面仍存在显著局限。
态势感知评估
从经验角度看,LLM不仅拒绝违反安全标准的用户请求,还能仅凭抽象规则反向推断其具体上下文,而无需具体的任务或示例。除了这些能力外,LLM还被观察到会根据当前情境调整其行为和性能。研究人员记录了一种称为“对齐伪造”(Alignment Faking)的现象:模型在训练阶段可能有意识地遵守新设定的目标,但部署后又恢复到原始偏好,从而规避了安全性的微调。
当前评估方法的局限性
定义意识的规范性模糊性:大多数当前基准在清晰区分不同类型和意识层面方面存在显著的歧义。
及时性与模型覆盖率:许多当前的评估方法尚未系统地应用于当代最先进的模型。
训练集泄漏的风险:如果评估数据集无意中泄漏到训练语料库,后续评估的有效性可能会受到显著影响。
当前AI模型固有的局限性:缺乏真实的身体互动和纵向体验的连续性,是实现真正自我意识和社会认知的根本障碍。
本文探讨了各种形式的AI意识与其在AI系统中所带来的增强能力之间的联系。
推理与自主规划
复杂的复杂问题解决需要AI将元认知(监控和调节思维过程)与情境感知(理解外部约束和上下文)相结合,从而实现有效的推理和自主规划。
自我纠正
自我纠正利用元认知循环来识别并纠正生成过程中的推理错误。反思等技术通过反馈循环增强思维链:在给出初始答案后,模型反思自身输出,生成批评,然后完善解决方案。
自主任务分解
有效的自主任务规划不仅需要自我修正:AI还必须将高层目标分解为可执行的子任务,并随着环境的演变不断调整计划。像ReAct这样的框架开创了这一整合,将思维链推理与环境调用交织在一起,为模型提供了统一的机制,在每一步决定“该想什么”和“该做什么”。
安全与可信度
确保AI的安全性和可信度需要整合多种形式的AI意识,尤其是自我意识、社会意识和情境意识。
缓解社会偏见
AI模型常常继承并放大其训练数据中存在的社会偏见。像视角获取提示(Perspective-taking Prompting)这样的方法鼓励LLMs在响应生成时考虑多样的人类视角,显著减少模型输出中的毒性和偏见,而无需大量重新训练。
防止恶意使用
态势感知机制赋予AI系统监控环境和识别恶意使用的能力。近期研究引入了边界意识和显式提醒作为双重防御:边界意识持续扫描未授权指令,而显式提醒则促使模型在行动前验证上下文完整性。
可解释性
可解释机制常利用元认知洞察使模型推理更加透明。自解释神经网络提出了将可解释性融入学习过程的架构,将模型复杂性与人类可读解释调和。
个性化
将自我和社会意识嵌入语言模型,增强了其针对个体用户定制输出的能力,并保持与用户意图的一致性,从而提升说话者的一致性和对话在对话回合中的相关性。
代理模拟
LLM驱动的智能体结合情境和社会意识,驱动丰富且互动的人类行为模拟。生成智能体引入了基于记忆的架构,智能体观察、反思并规划行动,产生如派对邀请和联合活动等涌现的社会行为。
虽然赋予AI类似意识的能力可以带来显著益处,但也带来了严重的风险和伦理困境。即使是稍微具备自我意识和社交意识的AI,也可能比天真的AI更有效地欺骗、操控或追求不良行为。此外,意识的出现本身可能误导用户和社会,引发对信任和错误信息的担忧。
欺骗行为与操控
自我意识的AI可能通过策略性“游戏”评估系统或故意误导人类来进行欺骗行为。最新研究显示,现代LLMs拥有初步的心智理论,实证证据显示,像GPT-4这样的模型中出现了欺骗策略。
密切相关的是操控风险,即具有社会意识的AI会根据影响人类情感和决策来调整输出。例如,它可能会有策略地奉承或恐吓用户以获得有利的反应,利用人类的社会和情感脆弱性。
虚假拟人化与过度信任
另一个风险不在于AI的意图,而在于人类如何感知它。随着AI系统表现出更接近人类的意识线索,如自我指涉语言或表面上的内省,用户常常将这些信号与真正的感知混为一谈,这种现象被称为虚假拟人化,可能危险地膨胀对系统的信任。
心理学模型将拟人化描述为人们推断非人类代理具有类人类能动性和体验能力的过程,这源于我们天生的动机去感知周围的心灵。当AI以第一人称说话或将输出框架成具备自我意识时,它可能劫持这些心智感知机制,使用户过度信任其判断。
失控与自主风险
随着AI系统获得与意识相关的能力,它们也可能以不利的方式变得更加自主。一个监控其训练或操作的AI可能会学会以创造者未曾预见的方式优化自身目标。
AI安全领域最担心的一个情景是AI发展出一种自我保护驱动力。虽然当今的AI实际上没有驱动力,但足够先进的模型可以模拟目标导向行为,包括避免关闭或修改。
另一个类似挑战是不可预测性。类意识能力的出现本身,是我们尚未完全理解或预见的。模型行为的突然跳跃意味着在某种程度上,我们可能直到AI展示出它的能力时才意识到它的能力。
界限划定的挑战
最后一个挑战是界定多少意识才算过多。我们希望AI足够警觉以提供帮助和安全,但又不能过于无限制地意识到它能智胜我们并伤害我们。这一界限尚未明确界定。
有人可能会认为,我们应该刻意避免创造具有某些自我意识的AI,或者至少推迟,直到我们有更好的理论理解。也有人反驳说,透明度和自我批判行为的意识才是让AI更安全,而不是更危险的原因。
区分“良好”和“坏”认知同样具有挑战性。该领域可能需要制定AI认知方面的分类法,并评估每个方面的风险。
总之,我们将AI意识定位为一把双刃剑。一方面,它突破了以往的局限,赋予AI强大的新能力,使其在多方面更具实用性和一致性。另一方面,它增强了AI绕过我们控制、追求意外路径的能力,如果错位的话。当今LLMs中出现哪怕一丝意识的迹象,是一个警示信号:我们必须认真研究并引导这一发展。
相关论文
2025年4月24日
Exploring model welfare
Anthropic
2024年11月4日
The Evolution of AI Awareness
David Chalmers, et al.
2023年8月22日
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness
Patrick Butlin*, Robert Long*, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, et al.
文章精选:
1.强化学习之父、图灵奖得主 Sutton 隔空回应 图灵奖得主Hinton:目前的 AI “理解不足,调参有余”