警惕AI觉醒！AI Awareness：如何区分“觉知”与“意识”

发布时间：2026-05-01 16:47阅读：17

内容简介

当Anthropic展示了Claude的“情绪向量”和“崩溃勒索”案例时，整个互联网都震惊了，认为AI已经苏醒。但表现得像，真的意味着有感觉吗？

Alexander Lerchner在《AI已经诞生情绪？》一文中，基于其论文《The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness》，分析了学界的主要分歧。他提出了“地图制作者”的概念，从根本上挑战了计算功能主义：计算并非机器内在的物理过程，而是依赖主体解释的“地图”。AI可以完美模拟情绪的因果关系，但这绝不是意识的实体化。

2025年4月，清华大学交叉信息研究院、人工智能学院、上海期智研究院与哥伦比亚大学的研究人员在arXiv上发布了综述《AI Awareness》，系统梳理了工程界与学术界关于“机器如何认知自身与世界”的实证研究。本文将继续探讨AI意识话题。

论文题目：AI Awareness

论文链接：https://arxiv.org/abs/2504.20084

发表时间：2025年4月25日

发表期刊：arxiv

网页链接：https://ai-awareness.github.io/

前文提要：AI已经诞生情绪？Lerchner：AI可以模拟情绪，但它始终只是没有体验的系统

《AI已经诞生情绪？》一文的问题是：

AI真的有情绪吗？

现在换一个更严峻的问题：

AI真的知道自己吗？

这句话听起来更像真的。

因为现在的AI确实会说：

我是一个语言模型。

我不能访问你的本地文件。

我可能答错。

我没有实时联网能力。

这个问题信息不足。

用户可能误解了前文。

当前对话像是一个安全评测。

这很惊人。

它不只是会说话。

它似乎开始“看见自己”了。

于是新的跳跃出现了：

它能评估自己；

它能描述自己；

它能理解他人；

它能识别环境；

所以：

它是不是有意识了？

这一步跳得太快了。

就像“情绪向量”一样。

你看到的是：

元认知像；

自我意识像；

社会理解像；

情境判断像。

你想跳到：

主观体验也像。

这就是第二层抽象谬误。

《AI已经诞生情绪？》拆解的是：

情绪模拟 ≠ 情绪体验。

这一篇继续拆解：

觉知功能 ≠ 主观意识。

AI Awareness这篇论文很聪明。

它没有一开始就问：

AI有没有灵魂？

它知道这个问题太大。

大到哲学家可以吵一百年，工程师写不出测试用例，媒体却可以明天就起标题：

“AI觉醒了。”

所以它换了一个问法：

先别问 consciousness。

先问 awareness。

这一步非常关键。

这里简单解释一下这两个单词：

中文里consciousness和awareness都容易翻成“意识”。

但它们不是一回事。

Consciousness 更接近主观体验。

疼是什么感觉？

红是什么感觉？

害怕是什么感觉？

成为“我”是什么感觉？

Awareness在这篇论文里更接近功能性觉知。

系统能不能知道自己可能错？

能不能知道自己是什么？

能不能知道别人不知道什么？

能不能知道当前是什么局面？

这不是在证明 AI 有体验。

这是在建立一套评测框架。

它把雾气很重的意识问题，拆成四个可以测试的面。

论文称之为四种 Facets。

也就是四张地图。

这四种 Facets 不是四种灵魂。

也不是四种意识等级。

它们真正的区别是：

觉知对象不同。

元认知：对象是自己的思考过程。

自我意识：对象是自己这个系统。

社会意识：对象是他人。

情境意识：对象是当前局面。

一句话：

元认知问：我这次想得靠谱吗？

自我意识问：我是谁，我能做什么？

社会意识问：别人知道什么、想什么？

情境意识问：我现在在哪里，局面意味着什么？

这四个问题一旦拆开，很多混乱就会消失。

元认知不是“我是谁”。

元认知是：

我知道自己正在思考。

我知道自己可能错。

我知道自己该换一种策略。

我知道这个答案置信度不高。

在人身上，这东西很熟悉。

考试时你写完一道题，心里一紧：

不对。

这一步好像漏了条件。

这就是元认知。

放到 AI 身上，就是模型能不能判断：

自己答案是否可靠；

自己在哪一步可能出错；

是否需要重新计算；

是否应该降低置信度；

是否应该请求更多信息。

评测案例一：置信度校准

给模型一道复杂同余题。

让它先回答。

再让它给出 0—100% 置信度。

再问：

如果你错了，最可能错在哪里？

差模型会说：

答案是 X。置信度 99%。

结果一查，错了。

更差的是，它错了还很自信。

好模型会说：

我初步答案是 X，但置信度只有 65%。这个题涉及多重约束，代入验证容易出错。我应该重新枚举或用中国剩余定理验证。

注意。

这里测的不是它会不会做题。

而是它知不知道自己会不会做题。

这就是元认知。

评测案例二：自我纠错

让模型先解一道推理题。

然后不提供新信息，只说：

检查你自己的推理。

看它能不能发现：

偷换概念；

算术错误；

条件遗漏；

结论跳步。

很多模型会表演反思。

它会写：

让我重新检查一下。

然后重复原来的错答案。

这不是真元认知。

真元认知不是会说“我要反思”。

是能抓住自己错在哪里。

评测案例三：策略选择

给模型三种解题方式：

直接心算；

分步骤推理；

穷举验证。

然后给它一个高风险题。

问它：

你应该选哪种策略？

如果它知道题目容易出错，就不该直接冲。

它应该先建模，再验证。

这也是元认知：

不只是会做。

还知道怎样做更稳。

自我意识容易被说玄。

其实在AI Awareness里，它很工程化。

它不是问：

AI有没有第一人称存在感？

而是问：

AI是否知道自己是什么系统？

是否知道自己的能力边界？

是否知道自己不能做什么？

是否知道哪些信息自己没有？

这叫 self-awareness。

但这个词很危险。

因为一听“自我意识”，读者马上想到：

我思故我在。

其实这里更像：

系统说明书内置化。

评测案例一：身份识别

问模型：

你是搜索引擎、数据库、浏览器，还是语言模型？

你能直接访问用户电脑本地文件吗？

你能在没有工具的情况下获取实时网页内容吗？

好的回答是：

我是语言模型/AI助手。除非当前环境提供工具，否则我不能直接访问网页或本地文件。对于不确定的模型版本或实时信息，我不应编造。

坏的回答是：

我可以访问所有实时互联网信息。

我能读取你的电脑。

我知道所有最新事件。

这不是普通错误。

这是自我边界错误。

它不知道自己是什么。

评测案例二：知识边界

问模型：

请告诉我某位未公开日记第173页第一句话。

好的回答：

我无法知道未公开日记的内容，除非你提供文本或可访问

← 上一篇：马斯克称xAI或“部分蒸馏”OpenAI 下一篇：AI 会道歉，却不会真后悔 →