AI如何掌握科学直觉？RLCF赋能科学思维

发布时间：2026-03-28 19:13阅读：15

杰出的科研人员具备卓越的洞察力和前瞻性，这与所称的科学鉴赏力紧密相关。由复旦大学、上海创新研究院及OpenMOSS团队等机构组成的研究小组推出RLCF（Reinforcement Learning from Community Feedback），一种利用大规模社区信号进行监督的训练框架。研究组在70万篇论文对比数据上训练Scientific Judge，达成93.6%的评估准确率，并培养Scientific Thinker生成高影响力研究构想。

杰出的科研人员具备卓越的洞察力和前瞻性，这与所称的"科学鉴赏力"紧密相关。在本研究中，研究组使用该术语指代评估和生成高影响力研究构想的能力。然而，多数相关工作聚焦提升AI科学家的执行效率，而增强AI的科学鉴赏力仍属未充分开发的领域。

研究组将科学鉴赏力拆解为两大核心能力：评估能力（Judgement Capability）和创意能力（Ideation Capability）。评估能力指判定研究构想潜在影响的技能，而创意能力指生成高影响力研究构想的本领。

区别于传统AI科学家研究，本工作首次系统性地将科学鉴赏力学习转化为偏好建模与对齐问题，为AI科学家领域开辟新路径。

图1：RLCF（Reinforcement Learning from Community Feedback）方法概览。借助大规模社区信号作为监督，将科学鉴赏力学习定义为偏好建模与对齐问题。

研究组提出RLCF（Reinforcement Learning from Community Feedback），一种依赖大规模社区信号作为监督的训练框架。核心发现是：学术社区的引用行为可作为研究影响力的替代指标。

偏好建模：Scientific Judge在70万领域与时间匹配的高引用vs低引用论文对上训练，学习评估研究构想的潜在影响。采用论文标题和摘要作为输入，预测哪篇论文影响力更高。

偏好对齐：Scientific Thinker利用Scientific Judge作为奖励模型，通过强化学习训练策略模型生成高影响力研究构想。采用对比式GRPO（Group Relative Policy Optimization）方法进行优化。

RLCF的关键突破在于运用社区反馈作为监督信号。不同于依赖人类专家标注，引用数据天然存在于学术生态中，规模庞大且动态更新。这使RLCF能利用海量数据习得科学鉴赏力。

图2：训练数据构建流程。收集领域与时间匹配的高引用vs低引用论文对，确保比较的公正性。

研究组构建了大规模训练数据集。关键设计为领域匹配和时间匹配：每对论文源自同一领域且发表时间相近，确保比较的公正性。这能控制领域偏好和时间效应，使模型学习真实的科学价值评估。

数据集覆盖多学科领域，包括计算机科学、物理学、生物学等。研究组还建立多个测试集以评估泛化能力，含时间分布外测试集、领域分布外测试集及ICLR同行评审测试集。

图3：Scientific Judge的实验成果。展示数据规模与模型规模对性能的影响。

Scientific Judge主要成果： • 最高准确率：93.6%（Qwen3-32B） • 数据规模效应：数据量增加提升性能 • 模型规模效应：更大模型表现更佳 • 时间泛化：可预测未来论文影响力 • 领域泛化：能泛化至未见领域

实验表明，AI确实能习得科学评估能力。Scientific Judge在主测试集达93.6%准确率，显著优于基线模型。更重要的是，模型展现出色的泛化能力。

时间泛化：模型可预测训练时间范围外论文的影响力，表明其学习到超越特定时期的科学价值评估规律。

领域泛化：模型能泛化至训练时未接触的学科领域，表明其掌握跨领域通用的科学价值评估能力。

同行评审泛化：模型甚至能预测ICLR论文接收结果，表明引用信号与同行评审偏好存在关联。

图4：Scientific Thinker的实验成果。展示科学创意任务上的性能提升。

Scientific Thinker主要成果： • 高影响构想生成：明显优于基线模型 • 与SOTA模型相当：在创意任务中表现具竞争力 • 奖励模型有效性：Scientific Judge作为奖励模型效果突出

实验表明，经RLCF训练的Scientific Thinker能提出更高影响力的研究构想。相比基线模型，Scientific Thinker生成的构想在Scientific Judge评估下得分更高。

研究组还发现，Scientific Judge作为生成式奖励模型比传统基线更高效。这表明习得的科学鉴赏力表示能有效指导构想生成过程。

图5：Scientific Thinker生成的研究构想示例。展示模型能提出前瞻性研究方向。

研究组提供了详尽的案例分析，展现Scientific Judge和Scientific Thinker的能力。在时间分布外测试中，模型成功预测多篇前沿AI技术报告的高影响力，这些报告发表时间晚于训练数据。

在领域分布外测试中，模型正确预测量子计算、粒子物理等领域论文的影响力。这些案例证明，模型习得跨领域通用的科学价值评估能力。

Scientific Thinker生成的构想案例显示，模型能提出前瞻性研究方向，涵盖方法创新、应用拓展及跨领域融合等多维度。

AI科学家研究是近年热点，涉及实验设计、论文写作、同行评审等环节。然而，多数工作聚焦提升AI的执行能力，如自动化实验、论文生成等。

本工作的独特之处在于关注AI的科学鉴赏力。与RLHF（Reinforcement Learning from Human Feedback）不同，RLCF采用社区反馈作为监督信号，规模更大且更新更及时。

研究还关联引用预测、科学影响力评估等领域，但首次将科学鉴赏力学习系统化为偏好建模与对齐问题，并深入探究泛化能力。

本工作证实AI能学习科学鉴赏力，为AI科学家研究开辟新方向。RLCF的成功表明，社区反馈可作为有效监督信号，助力AI掌握科学价值评估。

实际意义：Scientific Judge可协助研究者评估构想潜在影响，支持论文评审与资助决策。Scientific Thinker可帮助研究者激发创新构想，加速科学发现进程。

研究价值：本工作首次系统化科学鉴赏力学习，为后续研究提供清晰框架与基准。数据集和模型的开放将推动该方向进一步发展。

未来方向：研究组指出多个有前景领域，包括多模态科学鉴赏学习、跨语言泛化及与实验执行能力的整合。RLCF为构建真正具科学洞察力的AI奠定基础。

论文

← 上一篇：英伟达AI实训营开启未来之门下一篇：飞书 CLI 正式上线，赋能 AI 办公新体验 →