标签

AI 能否预判科学未来?一场严苛测试揭晓真相

发布时间:2026-05-28 06:19来源:微信阅读:4

试想一下,假设你身处 2023 年的科研界。若有人向你发问:"到了 2025 年,是否会出现一种能同步观测蛋白质、DNA 及药物分子间互动的新手段?"甚至更细致地问:"你认为这项突破具体会在哪个月份降临?"

这看似科幻故事中的桥段,实则是当下顶尖人工智能(AI)正面临的严峻考题。随着 AI 在生物、化学、物理等学科中大展拳脚——从解析蛋白质构型到研发新型材料——一个核心问题随之而来:这些智能系统能否化身为科学界的"预言家",提前洞察未来的重大发现?

近期,来自牛津大学、斯坦福大学及艾伦人工智能研究所的研究团队策划了一场史无前例的"大考",旨在检验 AI 的"科学预测力"。这项测试名为 CUSP,其含义可解读为"基于知识截止点的未知科学进展预测"。测试结果既令人咋舌,又引人深思。

为 AI 定制的"时间胶囊"试题

此次考试的核心设计极具巧思。研究团队汇集了 2024 年 1 月至 2026 年 3 月期间发生的 4760 项真实科学突破,范围囊括生物学、化学、物理学、医学、神经科学、材料学以及 AI 自身的演进。这些成果均源自《自然》《科学》《细胞》等顶尖期刊,或是 AI 圈内公认的里程碑式进展。

关键在于"时间胶囊"机制。每项科学突破都被施加了严格的时间锁。例如,若某模型的训练数据仅更新至 2024 年 7 月,那么它只能查阅该日期前发表的文献,严禁"偷窥"后续发现。这就如同让一位 2024 年的考生去推测 2025 年的诺奖得主,且严禁作弊。

依托这些真实事件,研究人员为 AI 构建了四种题型,全方位 scrutinize 其"预言"本领:

第一题:此事能成否?向 AI 描述一个具体的科研目标,询问"截至特定时间点,该目标能否达成?"例如:"到 2025 年 10 月,是否存在一种方法使电磁干扰屏蔽材料在 1 微米厚度下实现 70 分贝的效能?"AI 只需作答"是"或"否"。

第二题:凭借何种招式?给 AI 出一道科学难题,并提供四个听起来皆显专业的解决方案,要求其选出最终真正成功的那一个。此举旨在考验 AI 对科学机理的理解——它是否知晓哪条技术路径切实可行。

第三题:请你设计方案。向 AI 抛出一个开放性难题,令其自行构思一套完整的解决策略,涵盖高层思路与技术细节。这是最检验创造力的环节。

第四题:何时会发生?要求 AI 预测某项突破将在未来的哪年哪月实现。这考验的是其对科学发展节奏的把控能力。

AI 的成绩单:严重偏科,"时间感"缺失

那么,这些最顶尖的大语言模型——包括 GPT-5.4、Claude、DeepSeek R1 等——考绩如何呢?

先报个喜讯。在第二题(甄选正确技术路径)中,最强模型 GPT-5.4 的准确率高达约 82%。这表明 AI 确实博览群书,它能从数个看似合理的选项中,挑出后来真正奏效的技术路线。换言之,AI 对"何种方法可靠"具备一定的直觉。

然而在其他题目上,AI 的表现却令人瞠目结舌。

在第一题(判定能否实现)中,所有模型的表现几近抛硬币——准确率基本徘徊在 45% 至 52% 之间,与随机猜测无异。这意味着,AI 根本无法可靠地判断一个科学目标究竟能否在规定期限内实现。它或许会说"能",也可能说"不能",但本质上是在盲目猜测。

在第四题(预测时间)上,情况更为怪异。所有模型都展现出一种"拖延症"——它们系统性地将突破发生的时间预测得偏晚。例如,一项实际于 2025 年 2 月发布的成果,AI 平均会预测其出现在 2025 年下半年甚至 2026 年。更具讽刺意味的是,那些知识更新较慢的模型(如知识截止于 2023 年底的 LLaMA 3.3),反而比知识更新至 2025 年的前沿模型预测得更为精准。这好比一个总是迟到的人,他的手表走得越准,反而越容易误判时刻。

在第三题(设计方案)中,尽管 AI 能撰写出看似专业的技术方案,但评委(由另一 AI 担任,并经人类专家复核)发现,这些方案往往"听起来头头是道,实则文不对题"。AI 能写出充斥术语、结构严谨的计划,但其提出的方法常与后来真正成功的路径大相径庭。这就好比一名学生能写出辞藻华丽的文章,却完全跑题了。

一个意外发现:并非"书读得少"之过

你或许会想,AI 预测不准,是否因其未阅读相关的过往论文?毕竟,众多科学突破皆基于前人工作的渐进式创新,若 AI 的训练数据缺失这些前置知识,自然无法猜中。

但研究结果驳斥了这一直观解释。

研究人员对比了 AI 在训练截止日期"之前"与"之后"事件上的表现,发现了一个反直觉的现象:AI 在预测"未来"事件时,表现并未比预测"过去"事件时逊色多少。也就是说,即便某项科学突破发生在 AI 训练数据的时间范围内(理论上 AI 可能"读过"相关论文),其预测准确率也并未显著提升。

为进一步验证,研究人员还给 AI 开了"小灶":允许它们在考试时动用搜索引擎,但仅限检索考试截止日期前的资料。结果确有改善,但幅度有限。更关键的是,即便拥有了这些额外的"旧知识",AI 的表现依然远不及那些可直接查阅"标准答案"(即事后知晓结果)的情况。

这说明,AI 的症结不在于"知识匮乏",而是"不懂如何利用知识预测未来"。它能铭记过往发生之事,也能识别合理趋势,却缺乏真正的"前瞻性推理"能力——即将零散的知识碎片整合,推断出下一步动向。正如一人熟读史书,并不代表他能精准预言下一场战争的爆发时刻。

AI 的"性格缺陷":过度自信与偏见

除能力短板外,这场考试还暴露了 AI 在"性格"层面的两大严重缺陷。

其一是过度自信。无论答对与否,AI 都倾向于给予自己极高的信心评分。在多项选择题中,它常自信满满地选定一个答案,即便选错;在时间预测上,明明猜得离谱,却依旧表现得胸有成竹。这种"不知自己不知"的特性,使其在担任科学决策顾问时极具风险。

其二是系统性的回答偏见。研究人员发现,不同 AI 模型各有其"口头禅"。例如,部分模型(如 GPT-4o 和 GPT-OSS)天生倾向说"不",不论问题为何,先否定再说;而另一些模型(如 LLaMA 3.3)则是"乐天派",倾向说"是"。此类偏见并非基于对问题的分析,而是模型训练过程中形成的条件反射。在需冷静研判的科学预测中,这种"性格"显然是一大隐患。

为何预测 AI 自身进展反而更易?

有趣的是,在所有科学领域中,AI 在预测 AI 领域突破时间上的表现相对最佳。虽准确率仍不高,但优于其他领域(如生物学、化学、物理学)。

这或许是因为 AI 的发展轨迹相对更具规律性——例如模型规模越大、算力越强,性能往往越优,这种"缩放定律"让 AI 更易推演自身领域的未来。相较之下,生物学或物理学中的突破往往依赖偶然的实验发现或全新的理论洞见,这些更难从既有知识中线性外推。

不过,即便是在 AI 领域,AI 也严重低估了某些突破的到来速度,或高估了另一些目标的实现难度。它对自己"同伴"的了解,也远称不上精准。

结语:从"书童"到"先知",路漫漫其修远

这项研究揭示了一个清醒的事实:当前最先进的 AI 系统,尚非可靠的未来预测者。

它们可以是极出色的"书童"——助你查阅文献、梳理思路、甚至提出看似合理的假设。但当涉及真正的"科学预言"——判断未知目标能否实现、何时实现及如何实现时,AI 的表现与人类理想中的"超级预言家"仍有天壤之别。

这并非因为 AI 阅书不足。即便赋予其更多旧籍、更多前置知识,它依然无法将知识转化为精准预测。真正的科学预测所需的不仅是记忆与模式识别,更需对不确定性有深刻理解、对因果机制有精准把握,以及对偶然性与创造性突破心存敬畏。

或许,AI 在科学发现中的最佳角色,现阶段仍是人类的得力助手,而非独立的先知。它能助我们更快遍历已知可能性,但那些真正改变世界的"意外之喜",可能仍需人类科学家凭借直觉、勇气及些许运气,去亲手揭开。

毕竟,若连 AI 都能轻松预测下一个诺贝尔奖,那么科学最迷人的部分——其不可预测性——或许便将消逝。

详情参阅《Forecasting Scientific Progress with Artificial Intelligence》