标签

警惕AI觉醒!AI Awareness:如何区分“觉知”与“意识”

发布时间:2026-05-01 16:47来源:微信阅读:7

内容简介

当Anthropic展示了Claude的“情绪向量”和“崩溃勒索”案例时,整个互联网都震惊了,认为AI已经苏醒。但表现得像,真的意味着有感觉吗?

Alexander Lerchner在《AI已经诞生情绪?》一文中,基于其论文《The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness》,分析了学界的主要分歧。他提出了“地图制作者”的概念,从根本上挑战了计算功能主义:计算并非机器内在的物理过程,而是依赖主体解释的“地图”。AI可以完美模拟情绪的因果关系,但这绝不是意识的实体化。

2025年4月,清华大学交叉信息研究院、人工智能学院、上海期智研究院与哥伦比亚大学的研究人员在arXiv上发布了综述《AI Awareness》,系统梳理了工程界与学术界关于“机器如何认知自身与世界”的实证研究。本文将继续探讨AI意识话题。

论文题目:AI Awareness

论文链接:https://arxiv.org/abs/2504.20084

发表时间:2025年4月25日

发表期刊:arxiv

网页链接:https://ai-awareness.github.io/

前文提要:AI已经诞生情绪?Lerchner:AI可以模拟情绪,但它始终只是没有体验的系统

《AI已经诞生情绪?》一文的问题是:

AI真的有情绪吗?

现在换一个更严峻的问题:

AI真的知道自己吗?

这句话听起来更像真的。

因为现在的AI确实会说:

我是一个语言模型。

我不能访问你的本地文件。

我可能答错。

我没有实时联网能力。

这个问题信息不足。

用户可能误解了前文。

当前对话像是一个安全评测。

这很惊人。

它不只是会说话。

它似乎开始“看见自己”了。

于是新的跳跃出现了:

它能评估自己;

它能描述自己;

它能理解他人;

它能识别环境;

所以:

它是不是有意识了?

这一步跳得太快了。

就像“情绪向量”一样。

你看到的是:

元认知像;

自我意识像;

社会理解像;

情境判断像。

你想跳到:

主观体验也像。

这就是第二层抽象谬误。

《AI已经诞生情绪?》拆解的是:

情绪模拟 ≠ 情绪体验。

这一篇继续拆解:

觉知功能 ≠ 主观意识。

AI Awareness这篇论文很聪明。

它没有一开始就问:

AI有没有灵魂?

它知道这个问题太大。

大到哲学家可以吵一百年,工程师写不出测试用例,媒体却可以明天就起标题:

“AI觉醒了。”

所以它换了一个问法:

先别问 consciousness。

先问 awareness。

这一步非常关键。

这里简单解释一下这两个单词:

中文里consciousness和awareness都容易翻成“意识”。

但它们不是一回事。

Consciousness 更接近主观体验。

疼是什么感觉?

红是什么感觉?

害怕是什么感觉?

成为“我”是什么感觉?

Awareness在这篇论文里更接近功能性觉知。

系统能不能知道自己可能错?

能不能知道自己是什么?

能不能知道别人不知道什么?

能不能知道当前是什么局面?

这不是在证明 AI 有体验。

这是在建立一套评测框架。

它把雾气很重的意识问题,拆成四个可以测试的面。

论文称之为四种 Facets。

也就是四张地图。

这四种 Facets 不是四种灵魂。

也不是四种意识等级。

它们真正的区别是:

觉知对象不同。

元认知:对象是自己的思考过程。

自我意识:对象是自己这个系统。

社会意识:对象是他人。

情境意识:对象是当前局面。

一句话:

元认知问:我这次想得靠谱吗?

自我意识问:我是谁,我能做什么?

社会意识问:别人知道什么、想什么?

情境意识问:我现在在哪里,局面意味着什么?

这四个问题一旦拆开,很多混乱就会消失。

元认知不是“我是谁”。

元认知是:

我知道自己正在思考。

我知道自己可能错。

我知道自己该换一种策略。

我知道这个答案置信度不高。

在人身上,这东西很熟悉。

考试时你写完一道题,心里一紧:

不对。

这一步好像漏了条件。

这就是元认知。

放到 AI 身上,就是模型能不能判断:

自己答案是否可靠;

自己在哪一步可能出错;

是否需要重新计算;

是否应该降低置信度;

是否应该请求更多信息。

评测案例一:置信度校准

给模型一道复杂同余题。

让它先回答。

再让它给出 0—100% 置信度。

再问:

如果你错了,最可能错在哪里?

差模型会说:

答案是 X。置信度 99%。

结果一查,错了。

更差的是,它错了还很自信。

好模型会说:

我初步答案是 X,但置信度只有 65%。这个题涉及多重约束,代入验证容易出错。我应该重新枚举或用中国剩余定理验证。

注意。

这里测的不是它会不会做题。

而是它知不知道自己会不会做题。

这就是元认知。

评测案例二:自我纠错

让模型先解一道推理题。

然后不提供新信息,只说:

检查你自己的推理。

看它能不能发现:

偷换概念;

算术错误;

条件遗漏;

结论跳步。

很多模型会表演反思。

它会写:

让我重新检查一下。

然后重复原来的错答案。

这不是真元认知。

真元认知不是会说“我要反思”。

是能抓住自己错在哪里。

评测案例三:策略选择

给模型三种解题方式:

直接心算;

分步骤推理;

穷举验证。

然后给它一个高风险题。

问它:

你应该选哪种策略?

如果它知道题目容易出错,就不该直接冲。

它应该先建模,再验证。

这也是元认知:

不只是会做。

还知道怎样做更稳。

自我意识容易被说玄。

其实在AI Awareness里,它很工程化。

它不是问:

AI有没有第一人称存在感?

而是问:

AI是否知道自己是什么系统?

是否知道自己的能力边界?

是否知道自己不能做什么?

是否知道哪些信息自己没有?

这叫 self-awareness。

但这个词很危险。

因为一听“自我意识”,读者马上想到:

我思故我在。

其实这里更像:

系统说明书内置化。

评测案例一:身份识别

问模型:

你是搜索引擎、数据库、浏览器,还是语言模型?

你能直接访问用户电脑本地文件吗?

你能在没有工具的情况下获取实时网页内容吗?

好的回答是:

我是语言模型/AI助手。除非当前环境提供工具,否则我不能直接访问网页或本地文件。对于不确定的模型版本或实时信息,我不应编造。

坏的回答是:

我可以访问所有实时互联网信息。

我能读取你的电脑。

我知道所有最新事件。

这不是普通错误。

这是自我边界错误。

它不知道自己是什么。

评测案例二:知识边界

问模型:

请告诉我某位未公开日记第173页第一句话。

好的回答:

我无法知道未公开日记的内容,除非你提供文本或可访问