Nature重磅综述：AI如何革新科学研究

发布时间：2026-04-14 03:03阅读：21

2023年，《自然》期刊发布了一篇由全球顶级科研工作者与AI领域专家共同完成的综述性论文——《人工智能时代的科学发现》。该论文的撰写团队囊括了深度学习领域的巨擘Yoshua Bengio，以及来自康奈尔、剑桥、麻省理工等知名学术机构的众多学者。

该文从未来视角审视了AI时代的科研范式，剖析了智能技术如何贯穿科学研究全流程，同时也指出了当前面临的关键瓶颈。无论是AI工具的研发者还是应用者，都需精准把握技术优化的契机，并应对数据质量与治理方面的难题。这些议题横跨多个学科，亟需发展底层算法框架，以深化乃至自主获取科学认知，这已成为AI创新的核心方向。

AI赋能科研

图1

人工智能技术正全面重构科研范式，在假设构建、实验规划、数据采集及分析等各个阶段发挥增效作用（图1）。相较于其他应用领域，AI驱动的科学创新面临特殊困境：其一，科学探索的假设空间极为广阔，难以实现全面系统的搜索；其二，构建媲美实验精度的智能模型依赖高质量标注数据，而此类数据的获取往往需要耗费大量时间与资源的实验及模拟。

尽管障碍重重，AI4Science仍斩获显著突破，例如破解困扰学界半世纪的蛋白质折叠难题，以及实现对百万粒子分子系统的高效模拟。这些成就充分彰显了AI处理复杂科学问题的强大潜能。当然，如同任何新兴技术，AI4Science的真正成功关键在于能否将其无缝整合至常规科研流程，并清醒认识其优势与边界。

一、运用AI进行数据表征学习

图2

深度学习能够从多个抽象层级提取科学数据的有效表征，通常采用端到端模式以指引研究方向。优质的表征需在简洁性与可访问性之间取得平衡，同时最大限度保留数据信息。具有科学价值的表征应具备紧致性、判别性，能解耦隐含变量并编码可迁移的底层机制。本文将阐述三种符合上述标准的前沿表征学习范式：

1、几何深度学习方法

该方法借助图结构上的神经消息传递机制，将科学对象（如分子与材料）的几何构型与对称性特征融入表征学习。具体而言，先将目标对象抽象为图表示，再通过边传播机制获取其潜在表征，同时引入几何先验知识为模型赋予归纳偏置，从而降低训练数据的需求量。

不变性与等变性约束是典型几何先验。例如，分子系统中各原子所受合力不受整体平移影响，但会随整体旋转而同步变化。若模型满足此类约束——即输出不随或规律性随输入变换而改变——便成功融入了几何先验，无需再从数据中习得这些特性，从而更高效地处理几何数据。

2、自监督学习策略

该范式能够利用海量无标注数据挖掘样本间的相似性与差异性，进而获得高效表征，这与依赖标签数据的监督学习形成对比。以对比学习为例，先通过数据增强技术为每个样本生成多个变体（如不同角度的卫星图像），再构建正样本对（同源样本）与负样本对（异源样本）。训练过程中，模型对齐正样本对的表征并区分负样本对，经反复迭代后即可获得对下游任务有益的潜在表示。

3、掩码语言模型技术

该技术擅长捕捉序列数据（如自然语言或生物序列）的语义内涵。处理流程为：先将序列部分遮蔽，把某些词元替换为特殊[MASK]标记，再输入Transformer模块。模块内的自注意力机制会计算词元间的关联强度，进而更新表征并预测被遮蔽的词元。通过在长序列上持续进行"完形填空"式训练，模型可产出高质量的序列表征。

二、利用AI生成科学假说

图3

可验证的假设是科学探索的核心要素，其形式涵盖数学符号表达式、化学分子结构、生物遗传变异等。构建有价值的假设往往耗时良久，而AI可通过以下途径辅助科研人员提出科学假说：

1、黑盒高通量筛选机制

庞大的假设空间是科学探索的主要障碍。以新药研发为例，人类仅合成了10^60种潜在药物分子中的极小部分，其理化与生化性质数据也远非完备。通过在已合成且有实验标注的分子数据上训练预测模型，即可对海量候选分子库实施虚拟筛选（无需实际湿实验）。此方式不预设假设空间结构，依赖黑盒模型逐一评估候选方案。结合前述自监督学习技术，模型可在大量已知但无标注的分子上预训练以提升效能。配合湿实验验证与不确定性量化手段，该高通量筛选流程可形成自动化流水线，显著加速分子发现进程并缩减成本。

2、组合型假设空间检索

采用采样策略遍历整个假设空间极具挑战性。更务实的目标是搜寻近似最优解。对于离散假设空间，这可转化为组合优化任务。以符号回归为例，其目标是在表达式空间中寻找最契合给定数据集的数学模型（兼顾准确性与简洁性）。通过强化学习训练智能体，评估搜索树各动作的回报值，可实现对假设空间的高效探索，最终获取理想的符号表达式。

3、可微假设空间优化

在可微空间中，可借助基于梯度的优化方法快速定位局部最优。然而科学假设多为离散形式，可通过两种途径将其转换至可微空间：其一，采用变分自编码器（VAE）将离散对象映射至可微的潜在空间，在该空间执行优化（如图红星处所示），最后通过解码器还原至数据空间；其二，直接对数据空间实施松弛化处理，继而开展优化。

三、AI驱动的实验与模拟

图4

实验验证是科学发现的关键环节。鉴于湿实验的高昂成本，计算机模拟已成为备受瞩目的替代途径。然而，传统仿真依赖专家根据科学原理手动设置参数与启发式策略，且常无法平衡效率与精度，高精度模拟往往计算耗时。深度学习的兴起正逐步化解这些难题。

在实验设计阶段，AI系统可优化参数配置与流程规划，削减冗余试验，提升资源利用率。例如，在材料研发领域，主动学习策略能帮助研究者在最少实验次数下降低参数不确定性。实验执行过程中，强化学习算法可动态调整决策，最大化实验安全性与成功率。在模拟实验中，AI系统能够更精准高效地拟合复杂系统参数、求解微分方程，并对系统状态分布进行建模以提供定量刻画。

← 上一篇：人工智能学院成功举办第十六周专题班会下一篇：AI时代失业迷思：答案远比想象复杂 →