认知暗物质：AI缺失的人类核心智能

发布时间：2026-05-28 11:35阅读：9

宇宙中存在一种神秘物质，它既不发光也不反射电磁波，无法直接观测。

然而正是这种看不见的存在，维系着银河系的稳定结构。

天文学家称其为暗物质——并非因其神秘色彩，而是因为只能通过其引力效应间接推断其存在。星系旋转速度远超可见物质所能支撑，必然有某种未知成分在发挥作用。

2026年3月，来自普林斯顿大学认知科学系、Amaranth基金会和Protocol Labs的三位学者，运用相似的推理逻辑，揭示了AI系统中存在的结构性缺陷。

他们将这一现象命名为"认知暗物质"。

GPT-5、Claude Opus 4.5、Gemini 3.0 Pro——这些模型能够通过律师考试，解答奥林匹克数学题，分析病理切片并提供诊断建议，甚至在一小时内构建功能完备的Web应用。

但研究人员设计了一个简单实验：让三个模型各自运行十次，完成同一项任务——

开发一个包含三道国际象棋"一步将死"残局的网页应用，需具备拖拽功能。

所有模型都无法稳定完成。

问题并非代码能力不足——它们生成的HTML、CSS、JavaScript几乎完美无瑕，拖拽逻辑也实现得相当出色。

真正的问题在于：生成的国际象棋残局本身存在逻辑错误。黑方棋子已被将军，还未轮到白方行棋，残局就已结束。

这种错误对于真正下过棋的人来说一目了然。即使是初学者也不会摆出如此局面。

但AI系统却未能识别。

更令人困惑的是：这个错误在代码层面完全可以被检测——这些模型在生成代码时，已经引入了能够验证棋盘合法性的Python棋类库。它们具备发现自身错误所需的全部工具，却从未想到使用这些工具来检查输出结果。

研究者将这种现象命名为：锯齿状智能（Jagged Intelligence）——AI的能力并非完整的球体，而是一种奇特的形状，在某些方向上极度突出，在另一些方向上却存在令人意外的深坑，且难以预先判断何处会出现缺陷。

他们提出的核心问题是：这些缺陷为何会出现？

要解答这个问题，需要先理解AI的训练机制。

现有AI模型的学习材料来源于人类行为的数字痕迹——文字、图像、代码、对话记录等。这些都是行为的结果，而非产生这些行为的认知过程。

举例说明：当你在网上阅读一篇数学论文时，最终看到的是完整的证明过程。但论文背后隐藏着什么？是作者在某个下午突然产生的新思路，是他意识到之前方向错误后的调整，是他在白板前站了两个小时发现的别人忽略的模式。

这些内容都没有被写入论文中。

AI学习的是那个证明结果，而非创造证明的认知过程。

研究者将那些在人类智能运作中发挥关键作用、但难以从行为结果中推断的认知能力，统称为"认知暗物质"。

正如宇宙暗物质的存在通过"星系转速过快"这一现象被推断出来——认知暗物质的存在，通过AI在某些任务上的表现方式被推断出来。

在这些任务中，AI的表现显得异常奇特：正确部分极其精准，错误部分又极其荒谬，错误类型不像人类会犯的，更像是一个不知道自己缺失什么的系统在盲目推进。

研究者列出了他们认为最关键的七个认知暗物质领域。这七种能力共同构成了人类智能中那个"看不见却支撑一切"的隐形框架。

第一领域：元认知

了解自己知道什么，知道自己不知道什么，知道何时需要停下来检查推断是否正确。

在象棋残局的例子中，缺失的正是这一点——模型生成了棋局，却从未质疑"这个棋局是否合法"。它缺乏一个内置的声音在说"等等，我在这一步可能出错了，让我验证一下"。

人类在处理复杂任务时具备这种内部检查机制，即使犯了很多错误，也能在某个节点意识到"这个方向不对"然后调整。AI的成功率随着任务步骤增加呈指数级下降，正是因为缺乏这种错误恢复机制——它每一步都在犯错，却不知道自己在犯错，然后继续执行。

第二领域：认知灵活性

当规则改变，或反馈表明当前策略无效时，快速切换到另一种策略的能力。

研究者尝试给Claude Code提供连续反馈，告知残局无效，让它换一种思路。结果失败了——模型反复使用同一种方法，即使每次都得到"这条路行不通"的明确信号。

人类遇到这种情况会产生认知层面的"卡住感"，然后主动寻找卡住的原因、探索其他思路。这种机制在AI中基本缺失。

第三领域：情节记忆

记住"这件具体的事情何时发生在我身上"，然后用这段记忆指导未来行动。

当前部署的语言模型缺乏真正意义上的情节记忆。它们拥有从训练数据中提取的通用知识，但没有"我上次做类似任务时犯了这个错误"这种可检索和利用的个人化记忆。每次对话都是全新开始，之前积累的经验教训无法被内化。

第四领域：终身学习

在不忘记已有知识的前提下，持续学习新事物，适应新环境的能力。

人类神经系统在一生中持续更新，学习新技能不会让之前的技能消失。现有AI模型要更新知识，需要在海量数据上重新训练。这被称为"灾难性遗忘"问题——给模型加入新知识，旧知识就会被覆盖。

第五领域：溯因推理

从已知结果推断最可能的原因——即便那个原因是全新的、之前从未被明确提出过的。

这是科学发现的核心机制。达尔文看到加拉帕戈斯群岛上不同的雀类，推断出自然选择。牛顿看到苹果落地，推断出万有引力。这种从零散观察中"跳跃"到全新解释框架的能力，极难被编码进训练数据，因为真正的"跳跃"在发生之前没有人知道会在哪里出现。

第六领域：社会常识推理

理解人与人之间那些不成文的规则，理解"他知道我知道他知道什么"这种多层嵌套的社会认知。

人际交往中大量意义通过沉默、语气、时机传递，而非字面意思。一个真正理解社会规则的系统，不需要被明确告知"在这种情况下不应该说这种话"——它拥有一个关于人类社会互动的内建模型。

第七领域：情绪智能

识别、理解自己和他人的情绪状态，并据此调整行为。

这不是在探讨"AI是否有感情"这个哲学问题。这是在问：在情绪高度敏感的对话场景中，AI能否感知对方的情绪信号，并给出情感层面恰当的回应？相关事件显示，这个能力目前存在相当大的缺口。

你可能会问：这七件事，不就是更多训练数据或更大模型能解决的问题吗？

研究者的回答是：不是，因为问题不在于数量，而在于类型。

他们分析了目前最大规模的神经成像数据集，发现了一个令人警觉的模式：

那些AI已经掌握良好的认知能力（视觉感知、语言理解、语言生成），有大量专门为AI训练设计的大规模神经数据集。

那些AI完全未掌握的认知能力（元认知、认知灵活性、情绪智能），对应的大规模数据集几乎不存在。

这并非偶然。AI研究者收集和使用那些容易测量、能产生明确正确或错误答案的数据。元认知发生在内部，通常不留痕迹；溯因推理的"灵感时刻"稍纵即逝，无法被大规模记录；情绪智能的微妙信号很难被标注成训练标签。

结果就是：AI学会了大量可以测量的东西，但那些真正塑造人类行为、却难以测量的东西，从未进入过任何训练集。

研究者还做了另一个分析：检查GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro发布文档中使用的所有评测基准——37个基准，分析每个主要考察什么认知能力。

结果：几乎所有基准都集中在中等难度的认知能力层级，对真正困难的认知暗物质领域的测试几乎为零。

换句话说：AI在哪些方面进步，取决于我们在哪些方面给它出题。我们没有出这七道题，所以这七块区域从未被认真建设过。

论文中有一段话，读完后会深深印在脑海中：

"问题不只是任务失败，而是失败的方式。在精良的象棋应用中硬编码无效残局，不只是错误，更是陌生的。人类犯错有规律可循：忽略边缘案例，算术出错，注意力分散。这些失败模式是可理解的，这让协作成为可能。以不可预测方式失败的AI，很难被整合进人类社会网络。目标不只是减少失败，而是确保失败是可发现和可解释的。"

这句话涉及一件比能力本身更根本的事：可靠性的前提，不是永不出错，而是出错方式让人能理解。

一个人类同事犯错，你大概能理解原因——太累了，信息不够，理解有偏差。你知道下次如何补救，知道在哪些环节多核查。这让人类间的分工成为可能。

一个缺乏认知暗物质的AI犯错，那个错误经常是莫名其妙的——它做对了99个步骤，然后在第100步犯了一个初学者都不会犯的错，没有任何预兆，没有任何你能事先检测到的信号。

这不只是技术问题，这是人机协作的根本挑战。

这篇论文最后的结论，具有一种不常见的诚实：

研究者承认，他们提出的解决方向——收集大规模过程数据、眼动追踪数据、神经成像数据，训练AI学习认知过程而非行为结果——可能来不及在常规AI研究进展之前发挥作用。

如果scaling law继续下去，也许这七片暗物质会在某个未知方式下被部分解决，而不需要等待神经科学数据的介入。

但他们认为，即便如此，这项研究依然值得做。原因有双重：

一方面，这些数据能帮助AI变得更通用、更少锯齿。

另一方面，这些数据能帮助我们更好地理解人类自己的认知如何运作——元认知究竟发生在大脑哪个部位，情绪智能的神经基础是什么，溯因推理时大脑中在发生什么。

研究AI缺什么，结果帮我们更清楚地看到了人类有什么。

这个视角让这篇论文的意义超出了单纯的AI研究边界。

回到开头的那个比喻。

宇宙暗物质之所以重要，不是因为它神秘，而是因为如果它不存在，我们观察到的宇宙就无法成立——那些星系根本不该转得那么稳定，那些结构根本不该那么完整。

认知暗物质之所以重要，是同样的逻辑：如果这七种能力真的只是可有可无的附加功能，那人类就不该如此稳定地在复杂的、不确定的、充满情感张力的真实世界中生存和合作。

它们一直在那里，支撑着我们，只是在AI被设计出来之前，我们从未需要给它们一个名字。

原论文：Patrick J. Mineault（Amaranth基金会）、Thomas L. Griffiths（普林斯顿大学）、Sean Escola（Protocol Labs），《Cognitive Dark Matter: Measuring What AI Misses》，arXiv:2603.03414，2026年3月5日

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的"未来知识库"

截止到2月28日 "未来知识库"精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）