刘淼：数据壁垒：AI时代材料科学的关键竞争力 | AI for Science沙龙

发布时间：2026-05-29 15:04阅读：24

编者按

当人工智能开始重塑材料科学领域，真正的竞争优势究竟在哪里？5月21日，未来光锥「AI for Science 创变者说」第二期沙龙“AI+材料的千亿级机会”，邀请了三位学界与产业界一线专家，共同探讨AI+材料科学的前沿发展与实践经验。中国科学院物理研究所/松山湖材料实验室刘淼老师，结合团队与国际领先企业同台竞技的亲身经历，从自主构建Atomly数据库、开源GPT-FF力场，到打造全固态机器人实验室，给出了一个理性而坚定的判断：数据，才是唯一的护城河。

为何 AI 时代要强调数据？

这是人工智能领域众人高度关注的核心议题。AI的出现为我们提供了一个卓越的工具——在这个时代我们拥有了“infinite mind”（无限心智），借助机器代替或辅助我们进行思考，从而推动各领域实现前所未有的高效发展。

观察Gartner 2025年的新兴技术成熟度曲线，标注的技术几乎都与AI和机器人相关。这意味着几乎所有领域实现效率变革的方式都是“AI加机器人”。在此背景下，科学领域同样面临重大挑战与变革。

从全球视野来看，各国都在积极布局：

美国：特朗普政府提出的AI行动计划，将芯片、数据中心、模型置于战略核心位置。其中与科学研究相关的内容可概括为三大方向：自动化实验室、高质量数据集、计算基础设施。在科学领域的具体实施则通过美国能源部（DOE）的Genesis Mission（创世纪任务）——以科学方法革新研发模式，加速材料科学的发现进程。

中美对比：两国在战略层面高度一致，但在实施策略上存在差异。中国侧重政府主导、政策驱动，美国则更倾向于市场化运作。

在此背景下，美国科技企业的进展令人瞩目：

DeepMind于2023年底发布了GNoME数据集和模型，宣称通过高通量计算发现了38万种热力学稳定的材料，相当于人类800年知识积累的总和。

Microsoft同样成果丰硕，如MatterGen和MatterSim等工具对该领域产生了深远影响。MatterGen采用生成式方法，根据给定材料性质推断裂解可能的组分构型。

学术界：英国Andy Cooper团队、美国Gerbrand Ceder团队均采用机器人技术实现新材料自主发现和工艺革新，效率提升显著。

新兴企业：DeepMind、Microsoft和Meta的部分成员合作创立了Periodic Labs实验室，由Google X-Labs团队成员主导，估值极高，致力于用AI和机器人技术推动材料科学变革。近期Jeff Bezos也宣布投资62亿美元，这是他卸任Amazon CEO后首次在一家公司担任管理角色推动的事业——聚焦Physical AI，材料科学可能是其中的重要组成部分。

在行业快速发展的带动下，我们现在面对的是AI在材料领域的广泛应用，仔细观察会发现，所有参与者都是从数据起步的。

我梳理了材料科学数据领域的进展。过去两个诺贝尔奖（化学奖和物理奖）虽多涉及AI方向，但本质都是数据的突破。因此近期Google DeepMind、Meta、Microsoft都开始布局此类数据集。在国际范围内，这条技术路线已非常清晰。

具体如何实施？

这些巨头企业都在采用密度泛函理论（DFT）进行计算。计算一种材料已变得轻而易举，因此可以批量计算材料的各种性质——其本质是求解密度泛函理论，即解电子的薛定谔方程；掌握了电子行为后，就能推断出材料的各项性质。这已成为常规操作。

这就是科学发展的“第四范式”：在数据基础上构建各类AI工具。回顾数据计算的奠基者和先驱，Materials Project是典型代表，随后各国科研机构纷纷跟进。近期Google、Microsoft、Meta也加入其中。我们的工作依托中科院物理研究所和松山湖材料实验室展开，目前该实验室部分已独立为东莞材料科学与技术研究所。

我们的项目名为Atomly，启动时间相当早，2018年就已启动，相当于在中国本土建设了一个Materials Project。Materials Project的数据质量和数量都很出色，在此基础上可以进行大量人工智能材料发现和建模工作。我们的工作与其没有本质区别，但在计算规模和精度上有显著提升：

网站所有数据均为自主生产，包含34万个无机晶体材料，数据量约为Materials Project的两倍多。目前已有8000多位注册用户，许多用户在日常学习和工作中使用我们的数据库进行材料性质的初步探索。

Atomly数据库的核心优势在于：凭借这些数据，可以快速进行化学反应类型的计算。背后的逻辑是：我们没有另起炉灶发展密度泛函理论，而是将DFT打造为数据生成的Agent，通过高通量方式持续进行计算。这套工作流程是我们自主开发的，如今看似平常，但2018年开发时在技术上确实存在一定难度。

基于此，我们具备了与国外并驾齐驱的数据生产能力。Materials Project能做的事，我们基本都能完成；在某些领域，我们的数据规模更大，因此可以实现部分国产替代。

近期我们正用R2-SCAN级别的计算生成新数据，以及之前较少涉及的数据类型，如光学计算。预计未来半年到一年内，将推出光学数据库，提供光吸收等性质的详细描述。

随着ICSD（无机晶体结构数据库）中人类已知的材料将被逐步计算殆尽，我们通过元素替代方式不断拓展化学空间。

Atomly的一个显著优势是能够计算化学反应。一旦具备化学反应计算能力，就可以比较化合物的形成能：当化合物A与B反应时，放热量最大的必然是最稳定的。通过这种方法可以定量评估任意结构的稳定性。Google的GNoME正是采用这种方法，因此该方法如今变得非常热门。

具体案例说明：

超导体发现：已知某一化合物后，我们通过元素替换进行高通量计算，筛选出该空间中哪些化合物是稳定的，并将结果发表以指导实验。我们从数据库中筛选出与MgB₂（二硼化镁）结构相似的潜在超导体——从筛选到实验合成，仅用3个月就成功发现了新材料。

全固态电池：当前电池研发面临一个难题：电极材料与电解质材料会发生副反应——界面处的副反应会降低电池效率和循环性能。解决方案是寻找一层中间层将电极和电解质隔开。我们拥有这样的工作流程，能够从5万多个化合物中筛选出几十种优质的镀层材料。我们还筛选了电池正极材料，发现了一种氟化物钠电池材料，如果合成成功，其性能将超越当前的磷酸铁锂。这些成果已申请为专利。

我们还可以利用这些数据构建人工智能模型。一旦标定出化合物中原子在不同构型下的受力和键能，就能预测任意结构的键能和受力情况。由此我们开发了通用力场GPT-FF，基于特殊的嵌入方法，加入了键角等描述，将电子轨道行为投影在球形函数上。

2024年发布时，GPT-FF在行业中处于领先地位，略优于美国MIT的CHGNet和M3GNet。几个月后，MatterSim在更大数据量的支撑下将力场性能又向前推进了一步。

我们最近对力场进行了效率评估，发现其效率非常高，性能也优于当时的其他力场。其应用场景包括：

- 材料稳定性预测：给定原子在空间的排列构型，力场可以快速将其调整至平衡位置。

- 微调（Fine-tune）：在预训练力场基础上，使用少量数据即可微调到更合理的状态，例如可以区分钛金属体系从HCP到FCC的相变，这在传统经验势能（empirical potential）中一直是难点。

- 离子晶体分子动力学：我们对一个流行的全固态电解质进行了离子扩散率的模拟，结果与实验值非常接近。

GPT-FF力场的所有参数全部公开，用户可以下载后直接使用，是一个优秀的开源工具。

我们还在进行一项工作：利用它快速扫描化合物中的势能面，获得离子输运的精确计算。开发的快速通道工具包可以快速模拟锂离子、钠离子电池材料中的离子输运，比传统DFT快约100倍，与实验值和其他力场的对比结果都非常接近。这是电池材料计算中的关键环节，传统方法在电池材料筛选到这一步时往往无法进行，但有了这套人工智能力场就可以快速突破。

如何选择科学问题？

传统上在进行这些AI相关工作时，数据通常作为起点或判断依据。如果数据质量合适，就能用这些数据解决合适的科学问题。

DeepMind实际上是选择问题的高手。他们选择围棋作为突破口是因为围棋的数据质量非常高，不存在主观偏见和模糊问题，预测指标也非常明确。

因此选择科学问题始终是人工智能领域最关键的步骤。如何选择？以数据作为重要判据。

我们近期正在开发MatChat智能体。

- 2023年：用Llama 2进行了一些训练，发现有潜力，但难度和资源需求都非常大。

- 2024年：发现可以采用RAG（检索增强生成）模式来实现。

- 2025年：上线第一版，包含28万篇论文。

- 2026年3月：发布2.0版本，包含80万篇论文，支持快速查询和论文写作。

第三版我们包含了大量文献检索的全文内容。检索后，会根据检索结果直接提供参考文献。未来还将具备写作功能——我们有一个专门的skill可以撰写综述论文，调用MatChat的API后可以直接用于综述论文写作。

隐私计算：我们构建了一个利用隐私计算保护数据的开放平台。数据上传后，数据所有者可以选择“可用不可见”。这样大家可以登录访问数据结构但无法看到真实数值，只能看到元结构，利用这种结构调用数据构建AI模型。

机器人科学家：我们采用工业协作机器人将自动化合成引入真实实验室场景。我们的实验室已开始使用这套系统合成材料，合成效率非常高。

国内这类实验室数量不少，但基本都基于溶液或溶液化学；像我们这样实现全固态、机器人处理粉末、置于高温环境烧结的机器人实验室实际上非常稀缺，而这恰恰是材料科学中非常重要的合成步骤。我们也是国内为数不多、有能力对标美国A-Lab进行此类合成的单位之一。

AI for Science期刊：我们近期创办了一本期刊，由松山湖材料实验室和东莞材料所共同主办，编委团队国际化程度很高。期刊一半以上的论文来自国际作者，在这里发表能确保全球同行都能看到你的工作。今年10月我们还将举办AI for Science会议，邀请众多国际知名专家参与。目前开放获取，完全免费，欢迎大家投稿。

互动提问

提问1：10年后的材料实验室会是什么样子？

刘淼：这是个开放性问题，我没有确切答案。因为这个领域发展太快，最多只能展望两三年。

但总体而言，我们可以参考生物医药行业的发展，他们比材料科学发展稍早一些。几乎所有材料科学中经历的事情，生物医药领域实际上已经历过一遍——他们至少早20年就知道用AI计算寻找新药，拥有各种人工智能方案进行新药发现，或类似的软件/硬件产品。除了生物医药，材料科学可能是第二个在数据上具备类似发现或突破的领域。我认为前景既充满未知，也充满希望。

提问2：DeepMind、Microsoft在Nature发表成果时已不再公布数据和模型。你们将GPT-FF和材料数据库都免费开放，对国内免费是出于什么考虑？

刘淼：实际上他们没有公布数据，但模型还是公布的。开源并不意味着“模型+数据+训练方式”全部公开，而是只公开参数。这又回到我演讲的主题：数据非常重要。因此各领域的大模型公司，包括图像、世界模型、大语言模型，都不公开数据。材料科学也在朝这个方向发展。

这也是未来的趋势：数据将成为这个行业的壁垒，其他因素都不会是壁垒。模型已不再重要，因为模型的壁垒已经非常小——在同样数据条件下，你的模型比我的模型效率略高一点点，这种差异已小到可以忽略。接下来关键是如何建设数据，这将成为这个行业唯一的壁垒。在这种数据高价值的情况下，没有人会轻易放出数据。

如果你要进入这个行业或从事任何AI相关工作，如果没有在数据上占据先机，you will never make it（永远无法成功）。每家企业都是如此。因此学生、投资人、各行业从业者都可以思考：你选择的那家公司，在数据上是否具有先发优势——如果没有数据先发优势，there is no way you can go（就没有成功的可能）。

提问3：你们80万篇论文的数据是如何清洗的？

刘淼：首先，我们身处学术机构，有一定资源和条件获取论文全文。获得论文全文后，将PDF转化为可用数据，这里我们使用了浦江实验室的MinerU等智能文档解析工具。这类行业先进的工具可以让某个细节处理得更好。

我想今天在座的各位都在从事科学的工程化工作。当科学发展到一定程度时，可以通过工程化方式将其转化为生产力工具，做成产品、做成大家都能使用的工具，这个过程需要工程思维——每个细节都做到位，最后产品才能优质。任何细节考虑不周，最后产品就会因为那一个细节暴露问题。

提问4：从事AI的人很多都被业界高薪吸引过去了。AI for Science如何长期有系统地做下去？高校和研究所具有竞争力吗？

刘淼：我的感受是，这个领域从事AI+科学的人，更多是科学背景出身。如果单纯是AI背景，在这个领域很难进行深入发展。从事AI的人虽然薪资很高，但那些来自“生化环材”四大“天坑”专业的人，进入AI+科学领域发展，对他们来说可能是迈向更前沿方向的机会。

人类社会人员众多，每个人从事的工作各不相同，如果大家都做一样的事就失去意义了。我们也希望吸引进来的人不是只看薪资，而是在思考“如何创造价值”。这中间有许多有趣的、自己感兴趣的、好玩的事情。我相信这个领域会持续吸引人才加入，至少我看到我们新进来的研究生干劲十足，所以对这个问题毫不担心。

最近我看了Yann LeCun（杨立昆）的一个播客访谈，他提出一个观点：如果你现在去一个大厂或企业从事大语言模型工作，或者在研究生阶段学习LLM，其实非常无聊。反思我们团队的工作——有做基础设施的、有做产品的、有做数据的、有做模型的，这实际上与一个大语言模型公司的工作非常相似，相当于他们的早期阶段。因此这个领域实际上就像大语言模型的早期阶段，映射到我们这个行业，所以这个领域是蓬勃发展的。

在这个阶段，与其去一个成熟企业、在成熟方向中做一颗小螺丝钉，不如来我们这个行业，做一个行业成长期、早期进入的独角兽。这就是我们在这件事上的取舍。

作者简介

👆想要了解更多AI for Science创业项目？有BP想要投递？或者想来分享你的真知灼见？添加果壳硬科技企业微信，私信沟通。

未来光锥

部分已投项目

华天航空动力

极映科技丨中科科乐

闪极科技丨星联未来

中农种源丨博雅聚力

微灵医疗丨逸芯生命

谱睿源丨天璇新材料

……

关注话题

消费上游新材料丨AI for Science

……

闭门活动

生物科技丨农业育种

合成生物学丨碳中和

能源材料丨生物基材料

AI for Science

……

← 上一篇：AI 模型迭代五大必检：先控风险后求速下一篇：AI赋能高校教学设计全攻略：生成式AI与RAG技术强强联合 →