标签

认知暗物质:AI缺失的人类核心智能

发布时间:2026-05-28 11:35来源:微信阅读:4

宇宙中存在一种神秘物质,它既不发光也不反射电磁波,无法直接观测。

然而正是这种看不见的存在,维系着银河系的稳定结构。

天文学家称其为暗物质——并非因其神秘色彩,而是因为只能通过其引力效应间接推断其存在。星系旋转速度远超可见物质所能支撑,必然有某种未知成分在发挥作用。

2026年3月,来自普林斯顿大学认知科学系、Amaranth基金会和Protocol Labs的三位学者,运用相似的推理逻辑,揭示了AI系统中存在的结构性缺陷。

他们将这一现象命名为"认知暗物质"。

GPT-5、Claude Opus 4.5、Gemini 3.0 Pro——这些模型能够通过律师考试,解答奥林匹克数学题,分析病理切片并提供诊断建议,甚至在一小时内构建功能完备的Web应用。

但研究人员设计了一个简单实验:让三个模型各自运行十次,完成同一项任务——

开发一个包含三道国际象棋"一步将死"残局的网页应用,需具备拖拽功能。

所有模型都无法稳定完成。

问题并非代码能力不足——它们生成的HTML、CSS、JavaScript几乎完美无瑕,拖拽逻辑也实现得相当出色。

真正的问题在于:生成的国际象棋残局本身存在逻辑错误。黑方棋子已被将军,还未轮到白方行棋,残局就已结束。

这种错误对于真正下过棋的人来说一目了然。即使是初学者也不会摆出如此局面。

但AI系统却未能识别。

更令人困惑的是:这个错误在代码层面完全可以被检测——这些模型在生成代码时,已经引入了能够验证棋盘合法性的Python棋类库。它们具备发现自身错误所需的全部工具,却从未想到使用这些工具来检查输出结果。

研究者将这种现象命名为:锯齿状智能(Jagged Intelligence)——AI的能力并非完整的球体,而是一种奇特的形状,在某些方向上极度突出,在另一些方向上却存在令人意外的深坑,且难以预先判断何处会出现缺陷。

他们提出的核心问题是:这些缺陷为何会出现?

要解答这个问题,需要先理解AI的训练机制。

现有AI模型的学习材料来源于人类行为的数字痕迹——文字、图像、代码、对话记录等。这些都是行为的结果,而非产生这些行为的认知过程。

举例说明:当你在网上阅读一篇数学论文时,最终看到的是完整的证明过程。但论文背后隐藏着什么?是作者在某个下午突然产生的新思路,是他意识到之前方向错误后的调整,是他在白板前站了两个小时发现的别人忽略的模式。

这些内容都没有被写入论文中。

AI学习的是那个证明结果,而非创造证明的认知过程。

研究者将那些在人类智能运作中发挥关键作用、但难以从行为结果中推断的认知能力,统称为"认知暗物质"。

正如宇宙暗物质的存在通过"星系转速过快"这一现象被推断出来——认知暗物质的存在,通过AI在某些任务上的表现方式被推断出来。

在这些任务中,AI的表现显得异常奇特:正确部分极其精准,错误部分又极其荒谬,错误类型不像人类会犯的,更像是一个不知道自己缺失什么的系统在盲目推进。

研究者列出了他们认为最关键的七个认知暗物质领域。这七种能力共同构成了人类智能中那个"看不见却支撑一切"的隐形框架。

第一领域:元认知

了解自己知道什么,知道自己不知道什么,知道何时需要停下来检查推断是否正确。

在象棋残局的例子中,缺失的正是这一点——模型生成了棋局,却从未质疑"这个棋局是否合法"。它缺乏一个内置的声音在说"等等,我在这一步可能出错了,让我验证一下"。

人类在处理复杂任务时具备这种内部检查机制,即使犯了很多错误,也能在某个节点意识到"这个方向不对"然后调整。AI的成功率随着任务步骤增加呈指数级下降,正是因为缺乏这种错误恢复机制——它每一步都在犯错,却不知道自己在犯错,然后继续执行。

第二领域:认知灵活性

当规则改变,或反馈表明当前策略无效时,快速切换到另一种策略的能力。

研究者尝试给Claude Code提供连续反馈,告知残局无效,让它换一种思路。结果失败了——模型反复使用同一种方法,即使每次都得到"这条路行不通"的明确信号。

人类遇到这种情况会产生认知层面的"卡住感",然后主动寻找卡住的原因、探索其他思路。这种机制在AI中基本缺失。

第三领域:情节记忆

记住"这件具体的事情何时发生在我身上",然后用这段记忆指导未来行动。

当前部署的语言模型缺乏真正意义上的情节记忆。它们拥有从训练数据中提取的通用知识,但没有"我上次做类似任务时犯了这个错误"这种可检索和利用的个人化记忆。每次对话都是全新开始,之前积累的经验教训无法被内化。

第四领域:终身学习

在不忘记已有知识的前提下,持续学习新事物,适应新环境的能力。

人类神经系统在一生中持续更新,学习新技能不会让之前的技能消失。现有AI模型要更新知识,需要在海量数据上重新训练。这被称为"灾难性遗忘"问题——给模型加入新知识,旧知识就会被覆盖。

第五领域:溯因推理

从已知结果推断最可能的原因——即便那个原因是全新的、之前从未被明确提出过的。

这是科学发现的核心机制。达尔文看到加拉帕戈斯群岛上不同的雀类,推断出自然选择。牛顿看到苹果落地,推断出万有引力。这种从零散观察中"跳跃"到全新解释框架的能力,极难被编码进训练数据,因为真正的"跳跃"在发生之前没有人知道会在哪里出现。

第六领域:社会常识推理

理解人与人之间那些不成文的规则,理解"他知道我知道他知道什么"这种多层嵌套的社会认知。

人际交往中大量意义通过沉默、语气、时机传递,而非字面意思。一个真正理解社会规则的系统,不需要被明确告知"在这种情况下不应该说这种话"——它拥有一个关于人类社会互动的内建模型。

第七领域:情绪智能

识别、理解自己和他人的情绪状态,并据此调整行为。

这不是在探讨"AI是否有感情"这个哲学问题。这是在问:在情绪高度敏感的对话场景中,AI能否感知对方的情绪信号,并给出情感层面恰当的回应?相关事件显示,这个能力目前存在相当大的缺口。

你可能会问:这七件事,不就是更多训练数据或更大模型能解决的问题吗?

研究者的回答是:不是,因为问题不在于数量,而在于类型。

他们分析了目前最大规模的神经成像数据集,发现了一个令人警觉的模式:

那些AI已经掌握良好的认知能力(视觉感知、语言理解、语言生成),有大量专门为AI训练设计的大规模神经数据集。

那些AI完全未掌握的认知能力(元认知、认知灵活性、情绪智能),对应的大规模数据集几乎不存在。

这并非偶然。AI研究者收集和使用那些容易测量、能产生明确正确或错误答案的数据。元认知发生在内部,通常不留痕迹;溯因推理的"灵感时刻"稍纵即逝,无法被大规模记录;情绪智能的微妙信号很难被标注成训练标签。

结果就是:AI学会了大量可以测量的东西,但那些真正塑造人类行为、却难以测量的东西,从未进入过任何训练集。

研究者还做了另一个分析:检查GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro发布文档中使用的所有评测基准——37个基准,分析每个主要考察什么认知能力。

结果:几乎所有基准都集中在中等难度的认知能力层级,对真正困难的认知暗物质领域的测试几乎为零。

换句话说:AI在哪些方面进步,取决于我们在哪些方面给它出题。我们没有出这七道题,所以这七块区域从未被认真建设过。

论文中有一段话,读完后会深深印在脑海中:

"问题不只是任务失败,而是失败的方式。在精良的象棋应用中硬编码无效残局,不只是错误,更是陌生的。人类犯错有规律可循:忽略边缘案例,算术出错,注意力分散。这些失败模式是可理解的,这让协作成为可能。以不可预测方式失败的AI,很难被整合进人类社会网络。目标不只是减少失败,而是确保失败是可发现和可解释的。"

这句话涉及一件比能力本身更根本的事:可靠性的前提,不是永不出错,而是出错方式让人能理解。

一个人类同事犯错,你大概能理解原因——太累了,信息不够,理解有偏差。你知道下次如何补救,知道在哪些环节多核查。这让人类间的分工成为可能。

一个缺乏认知暗物质的AI犯错,那个错误经常是莫名其妙的——它做对了99个步骤,然后在第100步犯了一个初学者都不会犯的错,没有任何预兆,没有任何你能事先检测到的信号。

这不只是技术问题,这是人机协作的根本挑战。

这篇论文最后的结论,具有一种不常见的诚实:

研究者承认,他们提出的解决方向——收集大规模过程数据、眼动追踪数据、神经成像数据,训练AI学习认知过程而非行为结果——可能来不及在常规AI研究进展之前发挥作用。

如果scaling law继续下去,也许这七片暗物质会在某个未知方式下被部分解决,而不需要等待神经科学数据的介入。

但他们认为,即便如此,这项研究依然值得做。原因有双重:

一方面,这些数据能帮助AI变得更通用、更少锯齿。

另一方面,这些数据能帮助我们更好地理解人类自己的认知如何运作——元认知究竟发生在大脑哪个部位,情绪智能的神经基础是什么,溯因推理时大脑中在发生什么。

研究AI缺什么,结果帮我们更清楚地看到了人类有什么。

这个视角让这篇论文的意义超出了单纯的AI研究边界。

回到开头的那个比喻。

宇宙暗物质之所以重要,不是因为它神秘,而是因为如果它不存在,我们观察到的宇宙就无法成立——那些星系根本不该转得那么稳定,那些结构根本不该那么完整。

认知暗物质之所以重要,是同样的逻辑:如果这七种能力真的只是可有可无的附加功能,那人类就不该如此稳定地在复杂的、不确定的、充满情感张力的真实世界中生存和合作。

它们一直在那里,支撑着我们,只是在AI被设计出来之前,我们从未需要给它们一个名字。

原论文:Patrick J. Mineault(Amaranth基金会)、Thomas L. Griffiths(普林斯顿大学)、Sean Escola(Protocol Labs),《Cognitive Dark Matter: Measuring What AI Misses》,arXiv:2603.03414,2026年3月5日

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的"未来知识库"

截止到2月28日 "未来知识库"精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

上下滑动查看更多