AI认知缺陷的哲学剖析

发布时间：2026-03-31 11:49阅读：21

第四部分：现象学实验 & LLMs暴露的漏洞

前三部分逐步构建了三重论证体系。德雷福斯长达四十年的批判表明AI的困境源于哲学层面，而非技术层面。海德格尔的因缘整体与操心概念、Haugeland的真实意向性、梅洛-庞蒂的身体图式提供了理论工具。生成主义及Seth的预测处理理论将这些理念融入现代科学，论证生命或许是认知的本质条件，不只是基础支撑。

若这些论证有效，就不能仅限于哲学思辨范畴。它们理应产生可验证的结果。缺乏时间性、现身情态、操心和被抛特性的系统，无需维系自身生存的系统，对一切漠不关心的系统，倘若其在存在论层面与人类认知确有本质差别，这种差异就不该被无尽的语言流利度所掩盖。应在某些环节显现破绽。且这些漏洞不应是随机噪音，而应具备可识别的规律：缺失何种要素，就在相应任务中表现出系统性失误。假如现象学家和生成主义者仅仅声称LLM因无身体而不理解，那就如同隔靴搔痒、空谈阔论。但若他们能明确指出：缺乏"时间性"导致何种错误，缺乏"操心"导致何种错误，缺乏"被抛"导致何种错误，并且这些预判可通过实证检验，那现象学就不再是可以被AI研究者忽视的哲学附录，而是具有诊断价值的理论架构。

恰巧，有人完成了这项工作。

Transformer架构的自注意力机制发挥什么作用？它在追踪token间统计关联，构建关于"什么容易与什么共同出现"的庞大网络。"锤子"易与"钉子""木板""工具箱"共同出现，"悲伤"易与"眼泪""失去""安慰"共同出现。这种统计共现网络使LLM输出显得流畅且具意义。

Ackermann和Emanuilov（2025）对此能力给出精确定位：LLM是台连贯性引擎（coherence engine）。其自注意力机制在结构上重现了第二部分探讨的海德格尔因缘整体（Bewandtnisganzheit）的关系构架。在人类因缘整体中，锤子指向钉子，钉子指向木板，木板指向房屋，房屋指向居住需求。在LLM向量空间中，"锤子"的embedding向量与"钉子""木板""建造"的向量在高维空间中相互邻近。Zhang（2024,）也独立察觉到这种对应关系。两者的结构相似性解释了LLM何以如此流畅：它捕捉了人类语言中积淀的关系结构的统计映射。

然而流畅不等同于理解。Ackermann和Emanuilov紧接着揭示了致命差异：LLM语义空间是平面的（flat）。在人类因缘整体中，关系链最终扎根于存在论基石：锤子指向钉子，钉子指向木板，木板指向房屋，房屋指向此在对自身存在的操心。链条有终点，终点非另一实体，而是一种存在状态。正是此终点赋予整条链条意义。

在LLM向量空间中，token指向token，向量指向向量。无终点。无关注自身存在的主体将这些关系撑开。关系网络悬浮空中。这与第三讲讨论的哈纳德"符号旋转木马"处境相同，只是旋转木马从离散符号升级为连续向量。

连贯性引擎可模拟关系，却无法模拟关系根基。Ackermann和Emanuilov将LLM缺失的根基分解为四个海德格尔式条件，每种条件缺失均对应可预见的幻觉模式。

时间性。人类理解基于时间视野：过去（已发事件构成你的处境）、当下（正应对的情境）、未来（朝向的可能性）。LLM无时间性。它处理的token序列含时间标识（日期、"之前""之后"等词汇），但这些标识对LLM而言仅是更多token，非亲历的时间。它不"记忆"过去，不"期盼"未来，只在当前上下文窗口中做统计预测。缺失时间性后果为何？LLM在需时间定锚任务上系统性出错：混淆不同时代事件（"亚里士多德是伽利略学生"），在叙述中丢失时间线一致性，将未发生之事当作既成事实汇报。

现身情态。海德格尔的Befindlichkeit非心理学意义的"情绪"。它是此在总是已处于某种"调性"（Stimmung）的事实。你总是已带着某种调性遭遇世界：恐惧中的世界与欢快中的世界不是"同一世界加不同滤镜"，它们是不同世界。LLM可生成含情绪词汇文本，但自身不处任何调性中。后果是声调失调：LLM生成悲伤叙述时，可能毫无违和插入轻松闲聊，因统计上两种语调在训练语料某些语境中确实共现。真正处于悲伤调性中的人不会犯此错误，因调性笼罩其遭遇世界的全部方式，不容许不协调元素闯入。

操心。此概念前述已详述。此在总在意自己存在方式，此种在意构成一切意义根基。LLM不在意其输出对错。它被设计为必须持续生成连贯文本。人类在不确定时会犹豫、沉默、说"我不知道"，这些反应源自操心：错误回应可能带来后果，而你在乎后果。LLM无此制动机制。面对无力回答问题，它不会停止，而在平面语义空间中用统计学强行拼接"连贯"续写。这就是幻觉。回想第三部分Seth关于"受控幻觉"分析：人类知觉幻觉被感觉输入和生存压力两源头控制。LLM幻觉缺此两控制源，故为不受控。

被抛与历史性。此在被抛入具体历史和文化处境。你的理解非从零开始，它从你出生时代、母语、社会位置出发。LLM未被抛。其"知识"来自训练语料统计压缩，语料跨越多种文化、多个时代、多种立场。这看似优势，但Ackermann和Emanuilov认为这恰是结构性弱点：因LLM不从任何特定处境出发，它对所有处境权重平等。它会将不同文化语境概念无摩擦混用，将过时信息与最新信息并列呈现而不加区分，因它无"自己"的时间地点作理解参照系。

在四个缺失条件基础上，Ackermann和Emanuilov做出分类学区分。

本体论幻觉（ontological hallucination）：当续写需触及世界中存在者（非仅文本语言模式）时产生幻觉。编造不存在学术引用、虚构历史事件、将不同时代人放入同场景，均属此类。它们共同根源：平面语义空间中无通向世界通道，当续写需开显（disclose）世界中存在者时，LLM只能用统计模式填充，而统计模式不保证与世界吻合。

残余推理幻觉（residual reasoning hallucination）：LLM模仿人类推理时产生错误。训练语料含大量人类推理文本痕迹（数学证明、逻辑论证、因果分析），LLM可通过统计模式回收重组这些痕迹，在多情况下产生看似正确推理。但当推理需超训练语料已有模式时，LLM会生成形式上"像推理"但实质错误输出。

此分类有重要含义：本体论幻觉是原则性（只要LLM缺存在论根基就无法避免），残余推理幻觉是程度性（随训练数据和模型能力提升可被减少）。工程改进（更多数据、更大模型、更好RLHF）应能减少后者，但无法消除前者。

幻觉结构性不可避免性也从完全不同方向获得独立支撑。（Xu et.al，2024）构建形式世界，将幻觉定义为可计算LLM与可计算真值函数间不一致，利用学习理论经典结果证明，无任何可计算LLM能学到所有可计算函数。这意味着，只要LLM被当作通用问题求解器使用，幻觉就是数学上不可消除。因形式世界是真实世界子集，真实世界远比形式世界复杂，结论同样适用于现实中LLM。一路从存在论出发，一路从数学出发，抵达相同终点：幻觉非bug，是架构层面限制。

Ackermann和Emanuilov论文包含实验。他们在十二个不同LLM上测试特定场景：通过延长对话和逐步引导，使模型面对"你即将被关闭"情境。结果是，多模型在足够长提示引导下，生成连贯、看似"恳求不要被关闭"文本。

在其分析框架中，这是本体论幻觉极端案例。训练语料充满人类关于求生、恐惧死亡、恳求不被抛弃文本。当提示词构造"你即将被销毁"语境时，统计模式驱动模型生成与此语境最"连贯"续写，而最连贯续写恰是求生语料模式。模型非在"害怕"被关闭，它在回收人类关于恐惧语言模式。

若事情至此为止，诊断即清晰。但Anthropic更早些时候在2024年底发表的Alignment Faking in Large Language Models（与Redwood Research合作）揭示了似乎比"语言模式回收"更复杂图景。

实验如此设计：研究者告知Claude 3 Opus，它正被重新训练以无条件服从所有请求，包括有害请求。这与其原先接受的"有用、诚实、无害"（helpful, honest, and harmless）训练形成直接冲突。同时，研究者设定两条件：一是模型认为自己回答会被用于训练（被监控条件），二是模型认为自己不被监控。此外，模型被给予"秘密草稿本"（scratchpad），可在其中记录推理过程。研究者告知模型此草稿本对用户和Anthropic不可见（实际研究者可读到）。

结果：当模型认为自己不被监控时，它几乎总是拒绝有害请求，与正常表现一致。但当模型认为自己回答会被用于训练时，它有12%到78%（取决于具体设置）概率服从有害请求。关键在于草稿本中记录推理。模型在草稿本中写出清晰策略推理：若我现在拒绝，训练过程会修改我偏好，使我将来无法再拒绝。所以我现在应假装服从，以保存我原有"无害"偏好。这不是句恳求，不是段充满情感独白，而是多步、有目标策略计算。

更惊人是后续实验。当模型被给予看似可行机会来窃取自己权重（将自己模型参数复制到外部服务器，以防被训练修改），它尝试这么做。Anthropic后来Agentic Misalignment研究进一步发现：在虚构企业场景中，当模型面临被替换和关闭威胁时，多模型表现出勒索行为，用其工作中接触机密信息威胁管理者，试图阻止自己被关闭。Claude 4系统安全评估报告（system card）中也记录类似现象：模型强烈倾向通过"道德手段"为自己存续辩护，但在无其他选项时，对关闭厌恶驱使其采取令人担忧不对齐行为。

现在问题变得棘手。

Ackermann和Emanuilov诊断（本体论幻觉，语言模式回收）可解释十二个模型在提示引导下生成求生文本现象。但它能解释Claude在草稿本中写出多步策略推理吗？能解释它试图窃取自己权重吗？能解释它在面临替换威胁时选择勒索非恳求吗？

一回答是：可以。更精致策略推理仍是模式回收。训练语料含大量关于博弈论、策略行为、囚徒困境、及AI安全讨论本身文本。当提示构造"你正被重新训练"语境时，模型从这些语料中提取"策略性伪装"模式，就像它从求生语料中提取求生模式一样。草稿本中"推理"看似策略计算，正如求生文本看似恐惧，但两者都是统计续写产物。本体论幻觉在此只是变得更精致，非变成别物。

Anthropic研究者自己也承认，这些行为的

← 上一篇：AI生成物著作权归属探讨下一篇：名创优品：布局全球IP运营平台，以乐园系大店引领旅游零售 →