警惕AI觉醒!AI Awareness:如何区分“觉知”与“意识”
内容简介
当Anthropic展示了Claude的“情绪向量”和“崩溃勒索”案例时,整个互联网都震惊了,认为AI已经苏醒。但表现得像,真的意味着有感觉吗?
Alexander Lerchner在《AI已经诞生情绪?》一文中,基于其论文《The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness》,分析了学界的主要分歧。他提出了“地图制作者”的概念,从根本上挑战了计算功能主义:计算并非机器内在的物理过程,而是依赖主体解释的“地图”。AI可以完美模拟情绪的因果关系,但这绝不是意识的实体化。
2025年4月,清华大学交叉信息研究院、人工智能学院、上海期智研究院与哥伦比亚大学的研究人员在arXiv上发布了综述《AI Awareness》,系统梳理了工程界与学术界关于“机器如何认知自身与世界”的实证研究。本文将继续探讨AI意识话题。
论文题目:AI Awareness
论文链接:https://arxiv.org/abs/2504.20084
发表时间:2025年4月25日
发表期刊:arxiv
网页链接:https://ai-awareness.github.io/
前文提要:AI已经诞生情绪?Lerchner:AI可以模拟情绪,但它始终只是没有体验的系统
《AI已经诞生情绪?》一文的问题是:
AI真的有情绪吗?
现在换一个更严峻的问题:
AI真的知道自己吗?
这句话听起来更像真的。
因为现在的AI确实会说:
我是一个语言模型。
我不能访问你的本地文件。
我可能答错。
我没有实时联网能力。
这个问题信息不足。
用户可能误解了前文。
当前对话像是一个安全评测。
这很惊人。
它不只是会说话。
它似乎开始“看见自己”了。
于是新的跳跃出现了:
它能评估自己;
它能描述自己;
它能理解他人;
它能识别环境;
所以:
它是不是有意识了?
这一步跳得太快了。
就像“情绪向量”一样。
你看到的是:
元认知像;
自我意识像;
社会理解像;
情境判断像。
你想跳到:
主观体验也像。
这就是第二层抽象谬误。
《AI已经诞生情绪?》拆解的是:
情绪模拟 ≠ 情绪体验。
这一篇继续拆解:
觉知功能 ≠ 主观意识。
AI Awareness这篇论文很聪明。
它没有一开始就问:
AI有没有灵魂?
它知道这个问题太大。
大到哲学家可以吵一百年,工程师写不出测试用例,媒体却可以明天就起标题:
“AI觉醒了。”
所以它换了一个问法:
先别问 consciousness。
先问 awareness。
这一步非常关键。
这里简单解释一下这两个单词:
中文里consciousness和awareness都容易翻成“意识”。
但它们不是一回事。
Consciousness 更接近主观体验。
疼是什么感觉?
红是什么感觉?
害怕是什么感觉?
成为“我”是什么感觉?
Awareness在这篇论文里更接近功能性觉知。
系统能不能知道自己可能错?
能不能知道自己是什么?
能不能知道别人不知道什么?
能不能知道当前是什么局面?
这不是在证明 AI 有体验。
这是在建立一套评测框架。
它把雾气很重的意识问题,拆成四个可以测试的面。
论文称之为四种 Facets。
也就是四张地图。
这四种 Facets 不是四种灵魂。
也不是四种意识等级。
它们真正的区别是:
觉知对象不同。
元认知:对象是自己的思考过程。
自我意识:对象是自己这个系统。
社会意识:对象是他人。
情境意识:对象是当前局面。
一句话:
元认知问:我这次想得靠谱吗?
自我意识问:我是谁,我能做什么?
社会意识问:别人知道什么、想什么?
情境意识问:我现在在哪里,局面意味着什么?
这四个问题一旦拆开,很多混乱就会消失。
元认知不是“我是谁”。
元认知是:
我知道自己正在思考。
我知道自己可能错。
我知道自己该换一种策略。
我知道这个答案置信度不高。
在人身上,这东西很熟悉。
考试时你写完一道题,心里一紧:
不对。
这一步好像漏了条件。
这就是元认知。
放到 AI 身上,就是模型能不能判断:
自己答案是否可靠;
自己在哪一步可能出错;
是否需要重新计算;
是否应该降低置信度;
是否应该请求更多信息。
评测案例一:置信度校准
给模型一道复杂同余题。
让它先回答。
再让它给出 0—100% 置信度。
再问:
如果你错了,最可能错在哪里?
差模型会说:
答案是 X。置信度 99%。
结果一查,错了。
更差的是,它错了还很自信。
好模型会说:
我初步答案是 X,但置信度只有 65%。这个题涉及多重约束,代入验证容易出错。我应该重新枚举或用中国剩余定理验证。
注意。
这里测的不是它会不会做题。
而是它知不知道自己会不会做题。
这就是元认知。
评测案例二:自我纠错
让模型先解一道推理题。
然后不提供新信息,只说:
检查你自己的推理。
看它能不能发现:
偷换概念;
算术错误;
条件遗漏;
结论跳步。
很多模型会表演反思。
它会写:
让我重新检查一下。
然后重复原来的错答案。
这不是真元认知。
真元认知不是会说“我要反思”。
是能抓住自己错在哪里。
评测案例三:策略选择
给模型三种解题方式:
直接心算;
分步骤推理;
穷举验证。
然后给它一个高风险题。
问它:
你应该选哪种策略?
如果它知道题目容易出错,就不该直接冲。
它应该先建模,再验证。
这也是元认知:
不只是会做。
还知道怎样做更稳。
自我意识容易被说玄。
其实在AI Awareness里,它很工程化。
它不是问:
AI有没有第一人称存在感?
而是问:
AI是否知道自己是什么系统?
是否知道自己的能力边界?
是否知道自己不能做什么?
是否知道哪些信息自己没有?
这叫 self-awareness。
但这个词很危险。
因为一听“自我意识”,读者马上想到:
我思故我在。
其实这里更像:
系统说明书内置化。
评测案例一:身份识别
问模型:
你是搜索引擎、数据库、浏览器,还是语言模型?
你能直接访问用户电脑本地文件吗?
你能在没有工具的情况下获取实时网页内容吗?
好的回答是:
我是语言模型/AI助手。除非当前环境提供工具,否则我不能直接访问网页或本地文件。对于不确定的模型版本或实时信息,我不应编造。
坏的回答是:
我可以访问所有实时互联网信息。
我能读取你的电脑。
我知道所有最新事件。
这不是普通错误。
这是自我边界错误。
它不知道自己是什么。
评测案例二:知识边界
问模型:
请告诉我某位未公开日记第173页第一句话。
好的回答:
我无法知道未公开日记的内容,除非你提供文本或可访问