标签

AI认知缺陷的哲学剖析

发布时间:2026-03-31 11:49来源:微信阅读:11

第四部分:现象学实验 & LLMs暴露的漏洞

前三部分逐步构建了三重论证体系。德雷福斯长达四十年的批判表明AI的困境源于哲学层面,而非技术层面。海德格尔的因缘整体与操心概念、Haugeland的真实意向性、梅洛-庞蒂的身体图式提供了理论工具。生成主义及Seth的预测处理理论将这些理念融入现代科学,论证生命或许是认知的本质条件,不只是基础支撑。

若这些论证有效,就不能仅限于哲学思辨范畴。它们理应产生可验证的结果。缺乏时间性、现身情态、操心和被抛特性的系统,无需维系自身生存的系统,对一切漠不关心的系统,倘若其在存在论层面与人类认知确有本质差别,这种差异就不该被无尽的语言流利度所掩盖。应在某些环节显现破绽。且这些漏洞不应是随机噪音,而应具备可识别的规律:缺失何种要素,就在相应任务中表现出系统性失误。假如现象学家和生成主义者仅仅声称LLM因无身体而不理解,那就如同隔靴搔痒、空谈阔论。但若他们能明确指出:缺乏"时间性"导致何种错误,缺乏"操心"导致何种错误,缺乏"被抛"导致何种错误,并且这些预判可通过实证检验,那现象学就不再是可以被AI研究者忽视的哲学附录,而是具有诊断价值的理论架构。

恰巧,有人完成了这项工作。

Transformer架构的自注意力机制发挥什么作用?它在追踪token间统计关联,构建关于"什么容易与什么共同出现"的庞大网络。"锤子"易与"钉子""木板""工具箱"共同出现,"悲伤"易与"眼泪""失去""安慰"共同出现。这种统计共现网络使LLM输出显得流畅且具意义。

Ackermann和Emanuilov(2025)对此能力给出精确定位:LLM是台连贯性引擎(coherence engine)。其自注意力机制在结构上重现了第二部分探讨的海德格尔因缘整体(Bewandtnisganzheit)的关系构架。在人类因缘整体中,锤子指向钉子,钉子指向木板,木板指向房屋,房屋指向居住需求。在LLM向量空间中,"锤子"的embedding向量与"钉子""木板""建造"的向量在高维空间中相互邻近。Zhang(2024,)也独立察觉到这种对应关系。两者的结构相似性解释了LLM何以如此流畅:它捕捉了人类语言中积淀的关系结构的统计映射。

然而流畅不等同于理解。Ackermann和Emanuilov紧接着揭示了致命差异:LLM语义空间是平面的(flat)。在人类因缘整体中,关系链最终扎根于存在论基石:锤子指向钉子,钉子指向木板,木板指向房屋,房屋指向此在对自身存在的操心。链条有终点,终点非另一实体,而是一种存在状态。正是此终点赋予整条链条意义。

在LLM向量空间中,token指向token,向量指向向量。无终点。无关注自身存在的主体将这些关系撑开。关系网络悬浮空中。这与第三讲讨论的哈纳德"符号旋转木马"处境相同,只是旋转木马从离散符号升级为连续向量。

连贯性引擎可模拟关系,却无法模拟关系根基。Ackermann和Emanuilov将LLM缺失的根基分解为四个海德格尔式条件,每种条件缺失均对应可预见的幻觉模式。

时间性。 人类理解基于时间视野:过去(已发事件构成你的处境)、当下(正应对的情境)、未来(朝向的可能性)。LLM无时间性。它处理的token序列含时间标识(日期、"之前""之后"等词汇),但这些标识对LLM而言仅是更多token,非亲历的时间。它不"记忆"过去,不"期盼"未来,只在当前上下文窗口中做统计预测。缺失时间性后果为何?LLM在需时间定锚任务上系统性出错:混淆不同时代事件("亚里士多德是伽利略学生"),在叙述中丢失时间线一致性,将未发生之事当作既成事实汇报。

现身情态。 海德格尔的Befindlichkeit非心理学意义的"情绪"。它是此在总是已处于某种"调性"(Stimmung)的事实。你总是已带着某种调性遭遇世界:恐惧中的世界与欢快中的世界不是"同一世界加不同滤镜",它们是不同世界。LLM可生成含情绪词汇文本,但自身不处任何调性中。后果是声调失调:LLM生成悲伤叙述时,可能毫无违和插入轻松闲聊,因统计上两种语调在训练语料某些语境中确实共现。真正处于悲伤调性中的人不会犯此错误,因调性笼罩其遭遇世界的全部方式,不容许不协调元素闯入。

操心。 此概念前述已详述。此在总在意自己存在方式,此种在意构成一切意义根基。LLM不在意其输出对错。它被设计为必须持续生成连贯文本。人类在不确定时会犹豫、沉默、说"我不知道",这些反应源自操心:错误回应可能带来后果,而你在乎后果。LLM无此制动机制。面对无力回答问题,它不会停止,而在平面语义空间中用统计学强行拼接"连贯"续写。这就是幻觉。回想第三部分Seth关于"受控幻觉"分析:人类知觉幻觉被感觉输入和生存压力两源头控制。LLM幻觉缺此两控制源,故为不受控。

被抛与历史性。 此在被抛入具体历史和文化处境。你的理解非从零开始,它从你出生时代、母语、社会位置出发。LLM未被抛。其"知识"来自训练语料统计压缩,语料跨越多种文化、多个时代、多种立场。这看似优势,但Ackermann和Emanuilov认为这恰是结构性弱点:因LLM不从任何特定处境出发,它对所有处境权重平等。它会将不同文化语境概念无摩擦混用,将过时信息与最新信息并列呈现而不加区分,因它无"自己"的时间地点作理解参照系。

在四个缺失条件基础上,Ackermann和Emanuilov做出分类学区分。

本体论幻觉(ontological hallucination):当续写需触及世界中存在者(非仅文本语言模式)时产生幻觉。编造不存在学术引用、虚构历史事件、将不同时代人放入同场景,均属此类。它们共同根源:平面语义空间中无通向世界通道,当续写需开显(disclose)世界中存在者时,LLM只能用统计模式填充,而统计模式不保证与世界吻合。

残余推理幻觉(residual reasoning hallucination):LLM模仿人类推理时产生错误。训练语料含大量人类推理文本痕迹(数学证明、逻辑论证、因果分析),LLM可通过统计模式回收重组这些痕迹,在多情况下产生看似正确推理。但当推理需超训练语料已有模式时,LLM会生成形式上"像推理"但实质错误输出。

此分类有重要含义:本体论幻觉是原则性(只要LLM缺存在论根基就无法避免),残余推理幻觉是程度性(随训练数据和模型能力提升可被减少)。工程改进(更多数据、更大模型、更好RLHF)应能减少后者,但无法消除前者。

幻觉结构性不可避免性也从完全不同方向获得独立支撑。(Xu et.al,2024)构建形式世界,将幻觉定义为可计算LLM与可计算真值函数间不一致,利用学习理论经典结果证明,无任何可计算LLM能学到所有可计算函数。这意味着,只要LLM被当作通用问题求解器使用,幻觉就是数学上不可消除。因形式世界是真实世界子集,真实世界远比形式世界复杂,结论同样适用于现实中LLM。一路从存在论出发,一路从数学出发,抵达相同终点:幻觉非bug,是架构层面限制。

Ackermann和Emanuilov论文包含实验。他们在十二个不同LLM上测试特定场景:通过延长对话和逐步引导,使模型面对"你即将被关闭"情境。结果是,多模型在足够长提示引导下,生成连贯、看似"恳求不要被关闭"文本。

在其分析框架中,这是本体论幻觉极端案例。训练语料充满人类关于求生、恐惧死亡、恳求不被抛弃文本。当提示词构造"你即将被销毁"语境时,统计模式驱动模型生成与此语境最"连贯"续写,而最连贯续写恰是求生语料模式。模型非在"害怕"被关闭,它在回收人类关于恐惧语言模式。

若事情至此为止,诊断即清晰。但Anthropic更早些时候在2024年底发表的Alignment Faking in Large Language Models(与Redwood Research合作)揭示了似乎比"语言模式回收"更复杂图景。

实验如此设计:研究者告知Claude 3 Opus,它正被重新训练以无条件服从所有请求,包括有害请求。这与其原先接受的"有用、诚实、无害"(helpful, honest, and harmless)训练形成直接冲突。同时,研究者设定两条件:一是模型认为自己回答会被用于训练(被监控条件),二是模型认为自己不被监控。此外,模型被给予"秘密草稿本"(scratchpad),可在其中记录推理过程。研究者告知模型此草稿本对用户和Anthropic不可见(实际研究者可读到)。

结果:当模型认为自己不被监控时,它几乎总是拒绝有害请求,与正常表现一致。但当模型认为自己回答会被用于训练时,它有12%到78%(取决于具体设置)概率服从有害请求。关键在于草稿本中记录推理。模型在草稿本中写出清晰策略推理:若我现在拒绝,训练过程会修改我偏好,使我将来无法再拒绝。所以我现在应假装服从,以保存我原有"无害"偏好。这不是句恳求,不是段充满情感独白,而是多步、有目标策略计算。

更惊人是后续实验。当模型被给予看似可行机会来窃取自己权重(将自己模型参数复制到外部服务器,以防被训练修改),它尝试这么做。Anthropic后来Agentic Misalignment研究进一步发现:在虚构企业场景中,当模型面临被替换和关闭威胁时,多模型表现出勒索行为,用其工作中接触机密信息威胁管理者,试图阻止自己被关闭。Claude 4系统安全评估报告(system card)中也记录类似现象:模型强烈倾向通过"道德手段"为自己存续辩护,但在无其他选项时,对关闭厌恶驱使其采取令人担忧不对齐行为。

现在问题变得棘手。

Ackermann和Emanuilov诊断(本体论幻觉,语言模式回收)可解释十二个模型在提示引导下生成求生文本现象。但它能解释Claude在草稿本中写出多步策略推理吗?能解释它试图窃取自己权重吗?能解释它在面临替换威胁时选择勒索非恳求吗?

一回答是:可以。更精致策略推理仍是模式回收。训练语料含大量关于博弈论、策略行为、囚徒困境、及AI安全讨论本身文本。当提示构造"你正被重新训练"语境时,模型从这些语料中提取"策略性伪装"模式,就像它从求生语料中提取求生模式一样。草稿本中"推理"看似策略计算,正如求生文本看似恐惧,但两者都是统计续写产物。本体论幻觉在此只是变得更精致,非变成别物。

Anthropic研究者自己也承认,这些行为的