AI融入科研之路:必须契合科学方法论
人工智能在科研领域的影响力日益增强,笔者深入剖析了其对研究范式的冲击与改变。当前这代AI系统普遍存在四大缺陷:难以实现结果复现、缺乏过程透明度、主观性过强、机制阐释能力不足。文章深入阐释,科学的本质在于实证与推理的深度融合,通过假设验证与实验反馈的持续迭代来推进认知边界;而现有多数AI方案仍停留在统计模式匹配与相关性挖掘层面,无法提供清晰可解释的不确定性评估与因果链条。研究者以AlphaFold与机器学习势能模型为典型案例,对比了基于物理原理的建模路径与纯数据驱动策略在不确定性量化、参数可解释性等维度的本质差异;同时探讨了生成式技术与大规模语言模型在可复现性、数据依赖性、人类认知偏差等方面的固有局限。为推动AI真正服务于科学探索,笔者倡导构建与科学方法论完全契合的新型AI形态,涵盖可解释性AI、因果推断AI以及与物理定律深度绑定的Big AI体系。
AI若要真正赋能科学研究,需率先达成可复现性、透明性、客观性与机制可解释性四大核心标准
单纯依赖相关性分析的黑盒模型无法有效量化不确定性,更无法支撑深层次的科学认知
融合物理约束、可解释机制与因果推断能力的AI系统更契合科学方法论的基本要求
学术界应对AI技术设定更严苛的标准,而非被商业炒作与短期利益所驱动
人工智能正以前所未有的速度渗透科学领域,尽管距离媒体渲染的那些惊世骇俗的愿景仍有相当距离。但它是否真正革新了我们对科学的认知方式?答案显然是否定的。从某种意义上讲,当前这代AI甚至算不上真正的科学。
关于科学的精确定义,哲学界与科学史学界素有争议,但核心共识是:科学是观察与理性的有机统一。极端经验主义摒弃理论、极端理性主义摒弃数据这两种倾向早在数百年前就已式微。取而代之的是,科学家运用理论进行预测、指引新实验方向,通过实验产出数据来修正理论,如此循环往复。可重复性被赋予核心地位,这既是科学客观性的保障,也是科学区别于其他人类活动的本质特征。
几个世纪前,培根曾以"蜜蜂"比喻科学家如何实现理性与经验的协同共生。随着计算机技术兴起,另一种科学形态应运而生:模拟能够产生可操作的预测。将描述大气与海洋运动规律的数学模型,与卫星及地面监测站采集的数据相结合,便能进行拯救生命的天气预报。当下最具前瞻性的应用案例,当属人体数字孪生技术。
如今我们步入计算科学的新纪元,AI的重要性持续攀升。然而人们往往遗忘了此前经历过的狂热炒作与技术低谷。我们也时常忽视,人类仅凭20瓦的大脑能耗却展现出惊人的能力,即便与能耗高出百万倍的超级计算机相比亦不逊色。颇为讽刺的是,学界至今对"自然智能"尚无公认的定义,那么我们口中的"AI"究竟意指什么?我们对计算机的信赖或许过度了。
尽管存在诸多问题,美国科技巨头仍在抛出大胆乃至夸大的宣言。其背后有压倒性的利益驱动:盈利。大型机构因担忧错失机遇而竞相追逐AI浪潮。政府部门亦乐于搭上这趟快车,期待AI能提升治理效能与说服力。
部分狂热的追随者声称,计算机算法终将超越人类智能,机器将接手人类众多工作职能。颇具讽刺意味的是,其中一些最激进的论断恰恰来自那些依赖大规模众包劳动力的企业——贝索斯称之为"人工的人工智能"或伪AI,用于协助AI处理那些繁琐却棘手的任务。
人们惰于深思便假定AI同样能够胜任科学研究。但机器学习方法过去与现在本质上都是模式识别工具,旨在解决工程技术难题。其发展渊源更多与情报及安全机构相关,核心目标是让计算机从海量数据中挖掘线索,而非帮助科学家理解自然规律。
在这一领域AI确实能够发挥作用。最具标志性的案例或许是蛋白质结构预测工具AlphaFold,它绘制了近乎所有已知蛋白质的"结构宇宙"。对分子生物学家而言,AlphaFold是X射线晶体学的快速替代方案。与众多机器学习应用类似,AlphaFold最擅长处理其训练"见过"的模式。但由于本质上接近"查找表"模式,我们很难判定它在何种情况下可靠、何种情况下会失灵。换言之,对其不确定性进行量化极为困难。
另一个备受关注的方向是用AI学习原子间相互作用势能,以服务于经典分子动力学模拟。传统方法中确定势函数的形式或参数化过程繁琐,因此有人尝试让AI从尽可能大的数据集中学习从原子性质到分子势能或其他物理量的映射关系。这会催生一个拥有数十万拟合参数的神经网络——这些参数代表神经元之间的连接权重。同样,量化此类MLIP的不确定性困难重重,原因主要有二:参数规模过于庞大,且这些参数仅是拟合产物,缺乏内在的物理化学意义。
事实上,人类对分子相互作用的科学认知已相当成熟。因此完全可以采用基于物理原理的相互作用势模型,其各项具有明确的科学意义,参数数量从数百到数千不等。借助可扩展的不确定性量化方法,研究者发现通常仅有10到20个力场参数对目标性质具有显著影响。换言之,我们能够获得关于哪些参数真正重要的深刻认知与理解。
相比之下,我们很难洞察MLIP或AlphaFold的内部运作机制。这些系统通常包含从数十万到数亿级的参数。一方面,天量级的参数规模解释了机器学习为何能够拟合大量复杂关系;另一方面,这也导致其可靠性存疑,且无法提供令人满意的科学解释。
此外,这些系统通常在特定选择的数据集上训练,再以较小的验证集进行评估。但换用另一个数据集时,它们是否依然有效?很多时候答案是否定的,因为此时模型在进行外推而非内插。
生成式方法存在类似问题,且更加依赖随机数生成器,因此更极端地说,代码每次执行都可能产生不同结果。这让人联想到分子动力学模拟中的一次性实验不可复现问题。可重复性还面临其他挑战,包括获取底层数据与机器学习算法的渠道,这些可能被保密,有时还需要庞大的算力支持。
科学追求的是深层次的理解,而AI依赖的是统计推断。这本身并非错误,但我们必须铭记:相关不等于因果。借助遍历性理论、拉姆齐定理与算法信息论可以证明:超大规模数据库中必然包含大量虚假相关性,且相关性数量随数据量快速增长,而非随数据"本质"的改变而变化。即使在随机生成的超大数据库中也会涌现大量相关性,这意味着大多数相关性是虚假的。要从中筛选出真正的相关性,需要科学方法论的指导。
尽管计算机营造了"客观性"的表象,人在AI的构建与应用中仍居于核心位置。大多数情况下,要训练AI,必须预先定义AI将把答案归入的类别。但任何此类分类都是任意的、充满歧义的,反映的是开发者的主观动机:人类偏见被嵌入AI之中,在训练之前就已存在。
AI通常建立在一系列同样体现人类选择的假设之上,而非源于科学。例如,几乎所有机器学习算法都假设内部数据分析变量之间的关系是平滑可微的。这纯粹出于工程便利,便于使用线性代数、标准软件库以及GPU加速。然而,AI与机器学习确实能产生各种非线性预测。这是因为在以线性代数为主的同时,它们加入了将输入映射到输出的非线性激活函数。
如果我们自我安慰地假定世界处处可微,就可能进一步假定:在浮点数表示上从双精度退到半精度乃至四分之一精度牺牲一点精确度无关紧要,或者高斯统计的钟形曲线是无所不能的。在真实世界中,这些假设通常不成立。尖锐的不连续广泛存在,这是非线性行为的典型标志。
归根结底,世界本质上是高度非线性的。因为非线性科学直觉上难以把握且往往不可微,人们会倾向于回避它。非线性的极端表现之一是:舍入误差会在数字计算机中引发深远影响——这一点常被忽视。
可以理解,为何部分科学家将AI视为培根"蜜蜂"的替代方案:在生命科学等复杂领域,AI对答案的追逐而非对理解的追求,的确具有诱惑力。但在医疗健康等领域,这是不可接受的。我们必须理解治疗方案的作用机理,且消除其内在偏见——不仅是训练数据的代表性问题,还包括AI系统在设计之初的偏见。
学界对新一轮基础模型的热情正在升温。这些通用目的AI被宣传为可以通过类聊天界面的交互来解决科学家的各类问题。所谓AI4Science的典型案例包括用于分子分布预测的DiG、无机材料设计的MatterGen、以及目标感知分子生成的TamGen。
当这些模型如雨后春笋般涌现时,我们不应放弃科学的堡垒。相反,是时候要求AI与机器学习遵循最高标准的科学探索规范。我们需要把重点放在可重复性上,更重要的是强调提供机制洞见与理解的理论概念与方法。
AI无疑能为科学带来巨大益处,但我们绝不可背离三百年来经受检验的理性与经验的可重复融合。一条可行路径是发展可解释性AI,另一条是我们应拥抱因果推断AI;前提是AI能够以科学术语解释其内部机理与预测。第三条路径是Big AI,即将机器学习与基于物理的方法结合,使AI受自然规律约束。在这些语境下,二者的优缺点相辅相成,在药物发现等任务中结合更可能奏效。
科学是人类最珍贵的创造之一,比以往任何时候都更需要捍卫与阐明。培根的蜜蜂正受到AI的冲击,而它们需要繁盛发展。AI必须遵循科学方法论。
编者点评: