标签

AI 能否预知科学未来?CUSP 基准划定模型能力新界线

发布时间:2026-05-24 11:38来源:微信阅读:6

人工智能正深度介入科学探索,从解析蛋白质构造到研发新型材料,AI 重塑科研流程已成共识。然而,一个更本质的疑问随之而来:AI 系统能否仿效人类科学家,在时限压力下推演科学演进的路线?它是否能预判某项突破的发生概率、时间节点及实现路径?怀揣此类困惑,由牛津大学、斯坦福大学、华盛顿大学及艾伦人工智能研究所等机构的学者(包括 Sean Wu、Pan Lu、Yupeng Chen 等)组成的联合团队,提出了一套系统性评估框架——CUSP(基于截止条件的未见科学进展)。

该论文的核心贡献,在于首次将前沿 AI 模型置于受控的时间知识约束下,开展大规模、跨学科的“科学预测”能力测评。区别于既有的科学推理或解题测试,CUSP 直击痛点:目前我们尚不明确 AI 究竟能在何种程度上“预见”未发生的科学动态。它不考查模型对既有知识的检索,也不测试其解决已知难题的本领,而是验证其能否依据某一时间点前的全部信息,对未来的科学事件做出研判与预测。

CUSP 基准囊括了源自 Nature、Science、Cell 等顶尖期刊及社区资源的 4760 个可验证科学里程碑。借助精妙的“时间胶囊”架构,CUSP 能区分模型在训练截止日前后事件上的表现差异,从而剥离出预测能力与知识记忆的不同。评估涵盖四个维度:可行性研判、机制推演、方案生成设计及时间预测。研究显示,即便是最尖端的模型,在判定科学进展是否达成及何时达成方面,仍表现出系统性且依赖领域的局限。此文值得所有关注 AI 能力边界、科学发现机理及评估方法论的研究者与从业者深读。

英文题目 Forecasting Scientific Progress with Artificial Intelligence

作者 Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu

arXiv ID2605.22681

类别 cs.AI

Comments/接收信息 73 pages, 13 figures, 29 tables

原文链接 https://arxiv.org/abs/2605.22681

本文致力于解答一个核心议题:现行 AI 系统能否预见科学进步的轨迹?为系统探究此问,作者引入了一种在受控知识约束下预测科学进展的时间性评估框架。他们推出了 CUSP,这是一个多学科、事件级的基准,用于衡量 AI 系统在四个维度的科学预测力:可行性评估(能否判断进展是否发生)、机制推理(能否识别背后技术路径)、生成方案设计(能否生成吻合实际发现的方法)以及时间预测(能否预估进展发生时刻)。在 4760 个科学事件上,研究观察到当前前沿模型存在系统性且具领域依赖的短板。

研究的关键发现包括:

总而言之,当前 AI 系统作为科学进步的预测工具仍显乏力。知识获取并未转化为可靠的预测力,模型更多是从事后信息中受益,而非进行前瞻性预判。

科学进步常被视为遵循某种结构化模式,如半导体界的摩尔定律与深度学习中的标度律。这些经验规律长期为研究路线、资金优先序及技术预测提供依据。随着 AI 深度融入生物、化学、物理乃至 AI 自身的科学发现中,一个根本问题浮现:AI 系统能否预测科学进步轨迹?

既往研究大量评估了 AI 作为通用科学助手的能力,涵盖假设生成、实验设计、科学推理、解题及影响力预测等。这些研究虽证实了 AI 的广泛适用性,却无一涉及 AI 系统在时间知识约束下可靠预测科学进步的能力。评估此能力颇具挑战:预测须基于具体可验证的科学事件,同时严防模型接触事件发生后的信息。

这一空白正是 CUSP 聚焦的核心痛点。论文拟解决的关键问题是:当前 AI 系统是否具备预见科学进步轨迹的能力?其在科学预测方面的真实实力与本质局限何在?为此,作者构建了新评估框架,旨在分离知识记忆与知识的前瞻运用,从而刻画模型在“预测未来”而非“回忆过去”时的真实水准。

CUSP 的核心方法论具备两大显著特征:一是借由“时间胶囊”设计实现受控知识约束;二是通过四类互补任务全面评估预测能力的各维度。

CUSP 基准基于时间分层的科学里程碑语料库构建,时间跨度自 2024 年 1 月至 2026 年 3 月。所有入选里程碑均为可验证、确定性的科学进展。

数据