AI的隐性缺陷：超级智能为何难解象棋残局？

发布时间：2026-05-29 06:39阅读：12

设想这样一个情景：你让当今最顶尖的AI——那些能写小说、编程序、解数学题的"超级大脑"——制作一个简单的网页：就是一个能练习国际象棋"一步杀"的小工具。结果令人意外。

这些AI能洋洋洒洒写出几百行完美的HTML、CSS和JavaScript代码，画出一个精美的棋盘，棋子还能用鼠标拖来拖去。但当你真的想用它练棋时，却发现AI摆出的棋局本身就是错的——黑方的王已经被将军了，这根本不是一个合法的残局。更离奇的是，AI明明已经在代码里调用了象棋规则库，却像完全忘记了这个库的存在，宁愿一次次地生成非法棋局，也不愿停下来检查一下自己是不是搞错了。

这不是一个编程问题，而是一个认知问题。

看不见的"认知暗物质"

物理学家告诉我们，宇宙里有一种"暗物质"：它看不见、摸不着，但它的引力把星系牢牢地绑在一起。如果没有暗物质，宇宙根本不会像今天这样运转。

人类的大脑里也存在着类似的"暗物质"。我们之所以能在这个世界生存，靠的不只是能说话、能看图、能做题这些"看得见"的本事。还有一大批藏在幕后的能力在默默支撑着我们：知道自己懂什么、不懂什么的自我觉察；搞砸了之后换个思路的灵活调整；记住关键经历的情景记忆；理解他人感受的社交直觉；从蛛丝马迹中突然"顿悟"的创造性推理……

这些能力塑造了我们的行为，但它们很难被直接观察到。就像暗物质一样，我们只能从"如果没有它们，人类的行为就解释不通"这个角度，推断它们必然存在。

论文的作者们给这些能力起了一个贴切的名字：认知暗物质（Cognitive Dark Matter，简称CDM）。

"锯齿状"的智能边界

今天的AI展现出一种非常奇怪的智力轮廓，研究者称之为"锯齿状智能"（Jagged Intelligence）。这个词描绘的是一幅画面：AI的能力边界不是平滑的弧线，而是像锯子一样高低不平。在某些地方，它高耸入云，远超人类专家；在另一些地方，它却跌到谷底，连初学者都不如。

它能通过律师资格考试，却可能在简单的常识判断上翻车；它能写出复杂的操作系统代码，却做不出一个规则正确的象棋练习网页。这种落差之所以让人困惑，正是因为它违背了我们人类的直觉——在人类身上，能力通常是相关的：一个数学好的人，逻辑通常也不差。

但AI不是这样。因为AI本质上是从海量的人类行为数据（网上的文本、图片、视频）中学习的。而这些数据中，结果很丰富，过程却很稀缺。

打个比方：我们给了AI一本厚厚的习题集，里面全是答案，但没有草稿纸。AI学会了怎么写出漂亮的答案，却没学会怎么思考、怎么检查、怎么在卡壳时换个思路。那些写在草稿纸上的涂涂改改、灵光一闪、自我怀疑和策略调整——正是认知暗物质最集中的地方——在训练数据中几乎完全缺失。

三种"探测器"：如何捕捉思维的过程

如果问题出在数据上，那解决方案自然就是去收集那些能暴露思维过程的数据。论文提出了三类特别的"探测器"：

第一类是认知模型的"潜变量"数据。研究者可以通过精心设计的实验，观察人类在解决复杂问题时的行为模式，然后建立数学模型，反推出那些看不见的思维步骤。比如人类下棋时并不是随机尝试，而是在心里搜索一棵巨大的"可能性树"，还会用各种经验法则来 pruning 掉明显不靠谱的分支。这些内心的搜索策略，就是可以被建模和提取的暗物质。

第二类是过程追踪数据。这就像是给思维装上了行车记录仪。眼动仪能记录你在看屏幕时眼睛先扫哪里、在哪里停留；鼠标追踪能揭示你在做决定前的犹豫轨迹；而出声思维实验则让人一边做题一边念叨内心的想法，把原本不可名状的思考过程变成了可以分析的文本。已有研究显示，用这类"思维草稿"来训练AI，能显著提升它的推理能力。

第三类是神经-行为配对数据。这是最直接也最具挑战性的方法：在人的行为同时，记录大脑的活动。无论是功能性核磁共振（fMRI）、脑磁图（MEG），还是侵入式的神经像素电极（Neuropixels），都能捕捉到行为背后的神经信号。初步研究表明，用大脑数据来微调AI模型，不仅能提升它在语义和社交任务上的表现，还能让它对对抗性攻击更加鲁棒——仿佛大脑数据教会了AI一种更深层的"理解"，而不仅仅是表面的模式匹配。

数据的"偏科"现象

令人惊讶的是，不仅AI训练数据偏科，神经科学的数据收集也存在严重的偏科。

如果把认知能力分成三个层次：第一层（L1）是那些AI已经基本掌握的能力，比如视觉识别、语言理解、听觉处理；第二层（L2）是AI正在攻克的领域，比如规划、逻辑推理、工作记忆；第三层（L3）则是与认知暗物质高度相关、AI几乎还没碰的能力，比如认知灵活性、社会推理、情绪智能、终身学习等。

现有的密集神经影像数据集（那些花费巨大、长期追踪的重量级数据集）绝大部分集中在L1层面——看图片、听单词、做简单的知觉判断。而整个神经科学界发表的研究论文虽然对L2和L3更感兴趣，但这些研究往往是小规模、短时间的假设驱动实验，缺乏那种能被AI研究者直接拿来训练模型的"大数据"基础设施。

换句话说，AI已经学会的东西，恰恰是我们测量得最多的东西；而AI还没学会的东西，也正是我们数据最少的东西。这个巧合揭示了一个巨大的机会：如果我们能大规模收集人类在进行高阶认知活动时的行为和脑数据，不仅能帮助AI填补锯齿，也能反过来让我们更深刻地理解人类自己。

七大缺失的认知能力

论文开列了一份"认知暗物质愿望清单"，列出了最值得优先收集数据的七大领域：

首先是元认知——关于思考的思考。人类会评估自己懂不懂、监控任务进度、在必要时调整策略。一个收到期中考试不及格成绩单的学生，会意识到自己要加把劲；但AI在面对失败时，往往只会固执地重复错误的策略，缺乏这种"自我觉察"的纠错机制。

其次是认知灵活性。生物智能的标志之一就是能在新环境中快速调整策略。经典的斯特鲁普效应实验中，当规则突然改变，人类和其他哺乳动物都能迅速切换行为模式。而AI则常常表现出不恰当的" perseveration "（ perseverative behavior）——就像那个象棋例子，明明此路不通，却一遍又一遍地尝试。

第三是情景记忆。人类能记住生命中那些有意义的片段，并在未来灵活地调用这些记忆来指导行为。现在的语言模型没有真正的记忆，只能靠外部数据库和检索增强生成来"假装"记得上下文。

第四是终身学习。人类用十几小时就能学会开车，一生中不断适应新环境、新身体、新感官。而AI要吸收新知识，往往需要动用海量数据从头再训练一遍，还会遭遇"灾难性遗忘"——学了新的，忘了旧的。

第五是溯因推理。AI在演绎推理（从一般到特殊）和归纳推理（从特殊到一般）上已有长足进步，但科学发现中最关键的"顿悟"时刻——从观察中突然跳出一个全新的解释框架——这种溯因推理极其罕见，很难被标准数据集捕捉。

第六是社会与常识推理。人类依赖关于世界的心智模型：推杯子会掉、别人有和我们类似的感受、社交互动中存在多层次的"他认为她认为……"这类递归思维。AI的世界模型往往残缺不全甚至错误百出，导致它在需要真正理解人类社会规则时频频出错。

第七是情绪智能。这不仅仅是"识别情绪"，更涉及情绪如何影响决策、如何在不同情境中调节反应。恐惧会改变风险偏好，愤怒会影响判断——这些在人类身上司空见惯的情绪调节机制，在AI身上却严重缺失，有时会导致冷漠甚至有害的回应。

为什么这很重要？

收集认知暗物质数据，目的不只是让AI变得更聪明。一个更根本的问题是可协作性。

当人类犯错时，错误通常是"可理解的"：算错了数、漏看了细节、一时走神。这些失败模式是"可读"的，让同伴能够察觉、提醒、纠正。但AI的失败往往是"外星式"的——在华丽的网页里硬塞进一个非法棋局，这种错误让人无从预判，也无法信任。

如果AI的失败模式变得像人类一样可预测、可解读，它就能真正融入人类的社会协作网络。此外，更好的自我评估、更强的适应性和更可靠的学习能力，也是构建更安全、更可控AI系统的基石。

退一步说，即使神经科学的数据来不及在AI发展上发挥直接作用，这些关于人类思维过程的庞大记录本身也将是无价的科学遗产——毕竟，在追逐人工智能的同时，我们似乎也快忘记了人类智能本身是如何运作的。

就像暗物质的发现改变了我们对宇宙的理解，认知暗物质的探索，或许将同时改写人工智能和认知科学这两个领域的未来。

详情见《Cognitive Dark Matter: Measuring What AI Misses》

← 上一篇：AI 生成内容：这是何种生物？下一篇：猪场智能记录专家 →