标签

AI如何掌握科学直觉?RLCF赋能科学思维

发布时间:2026-03-28 19:13来源:微信阅读:6

杰出的科研人员具备卓越的洞察力和前瞻性,这与所称的科学鉴赏力紧密相关。由复旦大学、上海创新研究院及OpenMOSS团队等机构组成的研究小组推出RLCF(Reinforcement Learning from Community Feedback),一种利用大规模社区信号进行监督的训练框架。研究组在70万篇论文对比数据上训练Scientific Judge,达成93.6%的评估准确率,并培养Scientific Thinker生成高影响力研究构想。

杰出的科研人员具备卓越的洞察力和前瞻性,这与所称的"科学鉴赏力"紧密相关。在本研究中,研究组使用该术语指代评估和生成高影响力研究构想的能力。然而,多数相关工作聚焦提升AI科学家的执行效率,而增强AI的科学鉴赏力仍属未充分开发的领域。

研究组将科学鉴赏力拆解为两大核心能力:评估能力(Judgement Capability)和创意能力(Ideation Capability)。评估能力指判定研究构想潜在影响的技能,而创意能力指生成高影响力研究构想的本领。

区别于传统AI科学家研究,本工作首次系统性地将科学鉴赏力学习转化为偏好建模与对齐问题,为AI科学家领域开辟新路径。

图1:RLCF(Reinforcement Learning from Community Feedback)方法概览。借助大规模社区信号作为监督,将科学鉴赏力学习定义为偏好建模与对齐问题。

图1:RLCF(Reinforcement Learning from Community Feedback)方法概览。借助大规模社区信号作为监督,将科学鉴赏力学习定义为偏好建模与对齐问题。

研究组提出RLCF(Reinforcement Learning from Community Feedback),一种依赖大规模社区信号作为监督的训练框架。核心发现是:学术社区的引用行为可作为研究影响力的替代指标。

偏好建模:Scientific Judge在70万领域与时间匹配的高引用vs低引用论文对上训练,学习评估研究构想的潜在影响。采用论文标题和摘要作为输入,预测哪篇论文影响力更高。

偏好对齐:Scientific Thinker利用Scientific Judge作为奖励模型,通过强化学习训练策略模型生成高影响力研究构想。采用对比式GRPO(Group Relative Policy Optimization)方法进行优化。

RLCF的关键突破在于运用社区反馈作为监督信号。不同于依赖人类专家标注,引用数据天然存在于学术生态中,规模庞大且动态更新。这使RLCF能利用海量数据习得科学鉴赏力。

图2:训练数据构建流程。收集领域与时间匹配的高引用vs低引用论文对,确保比较的公正性。

图2:训练数据构建流程。收集领域与时间匹配的高引用vs低引用论文对,确保比较的公正性。

研究组构建了大规模训练数据集。关键设计为领域匹配和时间匹配:每对论文源自同一领域且发表时间相近,确保比较的公正性。这能控制领域偏好和时间效应,使模型学习真实的科学价值评估。

数据集覆盖多学科领域,包括计算机科学、物理学、生物学等。研究组还建立多个测试集以评估泛化能力,含时间分布外测试集、领域分布外测试集及ICLR同行评审测试集。

图3:Scientific Judge的实验成果。展示数据规模与模型规模对性能的影响。

图3:Scientific Judge的实验成果。展示数据规模与模型规模对性能的影响。

Scientific Judge主要成果: • 最高准确率:93.6%(Qwen3-32B) • 数据规模效应:数据量增加提升性能 • 模型规模效应:更大模型表现更佳 • 时间泛化:可预测未来论文影响力 • 领域泛化:能泛化至未见领域

实验表明,AI确实能习得科学评估能力。Scientific Judge在主测试集达93.6%准确率,显著优于基线模型。更重要的是,模型展现出色的泛化能力。

时间泛化:模型可预测训练时间范围外论文的影响力,表明其学习到超越特定时期的科学价值评估规律。

领域泛化:模型能泛化至训练时未接触的学科领域,表明其掌握跨领域通用的科学价值评估能力。

同行评审泛化:模型甚至能预测ICLR论文接收结果,表明引用信号与同行评审偏好存在关联。

图4:Scientific Thinker的实验成果。展示科学创意任务上的性能提升。

图4:Scientific Thinker的实验成果。展示科学创意任务上的性能提升。

Scientific Thinker主要成果: • 高影响构想生成:明显优于基线模型 • 与SOTA模型相当:在创意任务中表现具竞争力 • 奖励模型有效性:Scientific Judge作为奖励模型效果突出

实验表明,经RLCF训练的Scientific Thinker能提出更高影响力的研究构想。相比基线模型,Scientific Thinker生成的构想在Scientific Judge评估下得分更高。

研究组还发现,Scientific Judge作为生成式奖励模型比传统基线更高效。这表明习得的科学鉴赏力表示能有效指导构想生成过程。

图5:Scientific Thinker生成的研究构想示例。展示模型能提出前瞻性研究方向。

图5:Scientific Thinker生成的研究构想示例。展示模型能提出前瞻性研究方向。

研究组提供了详尽的案例分析,展现Scientific Judge和Scientific Thinker的能力。在时间分布外测试中,模型成功预测多篇前沿AI技术报告的高影响力,这些报告发表时间晚于训练数据。

在领域分布外测试中,模型正确预测量子计算、粒子物理等领域论文的影响力。这些案例证明,模型习得跨领域通用的科学价值评估能力。

Scientific Thinker生成的构想案例显示,模型能提出前瞻性研究方向,涵盖方法创新、应用拓展及跨领域融合等多维度。

AI科学家研究是近年热点,涉及实验设计、论文写作、同行评审等环节。然而,多数工作聚焦提升AI的执行能力,如自动化实验、论文生成等。

本工作的独特之处在于关注AI的科学鉴赏力。与RLHF(Reinforcement Learning from Human Feedback)不同,RLCF采用社区反馈作为监督信号,规模更大且更新更及时。

研究还关联引用预测、科学影响力评估等领域,但首次将科学鉴赏力学习系统化为偏好建模与对齐问题,并深入探究泛化能力。

本工作证实AI能学习科学鉴赏力,为AI科学家研究开辟新方向。RLCF的成功表明,社区反馈可作为有效监督信号,助力AI掌握科学价值评估。

实际意义:Scientific Judge可协助研究者评估构想潜在影响,支持论文评审与资助决策。Scientific Thinker可帮助研究者激发创新构想,加速科学发现进程。

研究价值:本工作首次系统化科学鉴赏力学习,为后续研究提供清晰框架与基准。数据集和模型的开放将推动该方向进一步发展。

未来方向:研究组指出多个有前景领域,包括多模态科学鉴赏学习、跨语言泛化及与实验执行能力的整合。RLCF为构建真正具科学洞察力的AI奠定基础。

论文