AI时代的科学数据共享新范式:FAIR×FAIR框架解读
[目标]本文聚焦人工智能背景下科研数据的开放共享与深度应用难题,针对现行FAIR准则难以有效引导数据实现AI适配的不足,构建了面向智能化应用的科研数据管理原则体系。[路径]通过深入剖析传统机器学习、大型模型预训练、模型微调、检索增强生成及智能体等五类主流AI应用场景的数据诉求,在既有FAIR"四可"准则基础上,创立了面向AI就绪(即For AI Ready)的科研数据共享利用原则架构FAIR×FAIR,并设计了与之匹配的多层次技术体系。[成效]该框架确立了13项支撑科研数据AI适配的技术规范,为消除人工智能任务与科研数据间的语义障碍提供了整体性解决思路。[不足]本框架的实用成效尚待未来跨领域实践案例的持续检验。[价值]FAIR×FAIR框架为智能时代的科研数据开放共享与价值挖掘奠定了理论基础和实施指南,对促进数据密集型科研模式转型具有深远影响。
关键词:FAIR原则;AI就绪;科学数据;数据共享;FAIR×FAIR
当前,伴随人工智能和大数据技术的不断演进,科研数据呈现出海量规模、多元模态与高度复杂的鲜明特征,如何推动科研数据的高效流通与长效利用已成为数据管理领域的焦点课题。
FAIR准则自2016年发布以来,已演变为全球科研数据管理的基准规范[1],其核心目标是增强数据的机器可处理性,保障数据资源能够被便捷检索、获取、交互与再利用。近些年,该准则在理论体系、技术工具与普及实践三个维度均取得长足进步。(1)理论体系上,FAIR准则的适用范围从最初的数据集本身,逐步延伸至研究工具[2]、数字实体[3]等更宽泛的学术成果形态。同时,该准则的价值维度持续丰富,学界日益重视数据建设中的伦理规范、公正性保障与偏差消除[4]等新兴命题。(2)技术工具上,Dataverse[5]、EUDAT CDI[6]、Fairdata.fi[7]、FigShare[8][9]等基础设施为FAIR化存储、元数据治理与资源共享提供了坚实支撑,极大改善了科研数据的发现效率与交互能力。(3)普及实践上,世界数据系统(WDS)协同90余家国际机构共同签署《FAIR数据赋能倡议书》,确立了推进开放化与FAIR化数据建设的统一目标[10]。在我国,《国家科学数据管理暂行办法》亦规定项目结题须递交遵从FAIR规范的Data Management Plan(DMP)[11]。就实施成效而言,联合国教科文组织全球调研显示,逾58%的海洋科学数据中心已在系统设计中融入FAIR理念[12](见图1);欧盟委员会《2022欧洲科研数据版图》报告指出,欧洲科研数据集的FAIR平均达标率为54.6%[13](见图2);我国国家科学数据中心中约65%的单位已在政策文本中明文纳入FAIR相关条款[14](见图3)。上述事实充分说明,FAIR准则已完成从观念到行动的转化,成为科研数据治理的普遍共识。
图1 全球海洋科学数据中心的FAIR原则遵循度统计[12]
注:数据