数据要素驱动AI发展新路径——《推进行业高质量数据集建设行动实施方案》深度解读
文 |北京海天瑞声科技股份有限公司副总裁 崔向雨
当前,全球人工智能发展正从“以模型为中心”加速转向“以数据为中心”,高质量数据集已成为决定模型性能上限、驱动人工智能产业落地的核心生产要素。日前,《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》)正式发布。《方案》是落实党中央、国务院“人工智能+”行动部署和“十五五”规划纲要的重要制度设计,也是深化数据要素市场化配置改革、以数据赋能人工智能创新发展的顶层行动纲领。《方案》更是我国首个系统性部署行业高质量数据集建设的顶层行动纲领,以“需求牵引、急用先行、应用验证、安全保障”为主线,通过六大专项行动构建“数据供给—流通—应用—价值释放”的良性循环,标志着我国数据要素市场化配置改革进入“以高质量数据赋能智能经济”的新阶段,为培育未来产业、塑造发展新优势筑牢数据底座。
一、战略定位和总体框架
(一)锚定三大核心方向,服务国家战略全局
一是服务“人工智能+”行动全局,夯实AI产业落地的数据底座。围绕人工智能创新发展,要坚持自主创新、应用牵引、生态协同、开放共赢和安全可控,深入实施“人工智能+”行动,促进人工智能和实体经济深度融合。行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型的基础性、关键性资源,是推动“人工智能+”赋能千行百业、实现产业落地的关键支撑,要不断提升高质量数据集供给能力,夯实人工智能产业落地数据底座。
二是支撑新质生产力与未来产业培育,赋能量子科技、生物制造、具身智能等前沿领域。近年来,党中央高度重视未来产业发展,加强战略谋划,强化政策支持,前瞻布局和发展未来产业,为培育新质生产力指明了方向。《方案》明确将低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域纳入数据集建设重点,持续加大高质量数据集的供给,以体系化数据工程驱动前沿产业加速发展。
三是深化数据要素市场化配置改革,打通数据从资源到资产再到资本的价值转化通道。当前数据要素价值正在加快释放,企业通过应用数据要素市场化配置改革“531”政策工具箱,深化数据资源开发利用,强化行业高质量数据集建设和供给,推动数据产品形态、生产方式等深刻变化,培育新产品、新服务、新模式,破解行业痛点难点,拓展出新的市场机会和发展空间。
(二)一条主线、六大行动
《方案》按照“需求牵引、急用先行、应用验证、安全保障”的原则,围绕供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放六大专项行动,构建“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮闭环体系,加快形成数据要素与人工智能协同演进的共生生态。
六大专项行动分别对应解决行业高质量数据集建设全链条中的六大核心问题:强基扩容行动解决“有数据供得出”的问题;标注攻坚行动解决“精加工高价值”的问题;提质增效行动解决“质量好标准化”的问题;应用赋能行动解决“可推广用得好”的问题;管理服务行动解决“管得住保安全”的问题;价值释放行动解决“流得动价值显”的问题。六大行动形成从数据“设计-汇聚-采集-加工-质检-运营”到应用管理再到价值变现的完整闭环,推动行业高质量数据集从规模化供给走向高质量应用、价值创造。
二、重点内容与创新亮点
(一)重点内容
1.强基扩容行动:拓宽供给渠道,覆盖重点行业与创新领域
《方案》聚焦科学研究、工业制造、金融服务、医疗卫生等重点领域以及低空经济、具身智能等创新领域,加快推进多模态高质量数据集建设。面向人工智能预训练、指令微调、强化学习等各阶段,持续推进文本、代码、图像、音频、视频、点云等多模态数据集建设;面向智能体等新型智能应用形态,加强知识库、知识图谱等数据集建设;面向具身智能发展需求,加快重点场景物理交互、环境感知等真机交互数据集建设;积极面向世界模型等前沿方向,推进数据集建设。极大拓宽数据供给渠道,丰富数据供给类型,指引数据企业卡位前沿赛道,布局多模态与具身智能数据,抢占先机。
2.标注攻坚行动:推动标注向人机协同与专家参与升级
《方案》提出发展“模型预标注+人工校准”“人工标注+模型检验”等智能化标注服务,全面提升数据标注水平。面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区。支持有条件的院校增设数据标注相关课程,培育具备专业知识的数据标注人才,推动数据科技创新。促进数据企业升级智能标注工具,培育专家型人才,构筑核心壁垒,积极推动数据标注从“劳动密集型”向“技术+知识密集型”迭代升级。
3.提质增效行动:构建AI-Ready高质量数据集
《方案》明确提出推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪(AI-Ready)的高质量数据集,降低训练推理成本,有效提升模型性能。加快推进高质量数据集格式、类型、标注、质量测评等相关国家标准研制,健全高质量数据集标准体系。这是国家层面首次系统部署AI-Ready数据集标准导向,为行业高质量数据集建设提供了明确的“标尺”,降低模型训练成本,提升数据资产价值。
4.应用赋能行动:打造数据飞轮闭环
以模型应用牵引数据供给、以数据驱动模型迭代,《方案》着力打造“场景—数据—模型”协同发展的良性循环。高质量数据集建设是人工智能+行动和数据要素X行动的焊接点,抓住这个牛鼻子,推动各行各业“数据飞轮”更好地转起来,实现数据要素与人工智能的深度融合。国家数据局支持的高质量数据集先行先试单位和行业链主企业,围绕科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、商务领域、文化旅游等重点方向,建设行业高质量数据集,推动“模数共振”,驱动企业以场景定数据、以数据促模型,形成数据飞轮效应。
5.管理服务行动:全生命周期管理与安全可控
《方案》聚焦构建全生命周期管理体系,建立“物理分散、逻辑集中”的数据集资源目录,探索面向人工智能发展的数据相关制度,同时坚持伦理先行与公平普惠。这与国家关于推动人工智能健康有序发展坚持安全可控、统筹发展和安全、完善制度、加强监管的要求一脉相承,要求数据企业建立全生命周期治理体系,保障合规与安全双底线。
6.价值释放行动:创新商业模式,培育付费市场共识
《方案》创新性提出“探索词元交易等新型交易模式”,构建以词元为基础、可量化、可定价的数据集价值体系,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。鼓励数据集质押融资、作价入股、资产证券化等多元化资产化创新模式,拓宽数据价值转化渠道。培育“为高质量数据付费”的市场共识,支持数据等无形资产的投资,催生词元交易等新商业模式,激活数据资产化与资本化路径。
(二)创新亮点
1.首次体系化部署行业高质量数据集全链条建设,明确AI-Ready数据集标准导向
《方案》是我国首部覆盖数据供给、标注、质量、应用、管理、价值全链条的专项政策,为行业数据集建设提供清晰路线图。首次将AI-Ready作为高质量数据集核心标准,强调数据集需适配大模型训练、微调、推理全流程,直接服务于人工智能产业发展。
2.首次提出词元价值体系,量化数据价值
《方案》突破传统数据价值评估难、定价难的瓶颈,首次探索以词元为基础的量化价值体系,为数据资产化、商业化提供核心支撑,推动数据价值从“模糊感知”向“精准量化”转变。
3.首次构建“一次测评、全国互认”质量机制
《方案》建立全国统一的数据质量测评标准与互认机制,避免重复测评、标准不一问题,降低企业合规成本,提升数据流通效率,助力全国一体化数据市场建设。
三、《方案》实施保障与落地要求
《方案》的制定与发布,是我国贯彻落实党中央、国务院决策部署、深化数据要素市场化配置改革、赋能人工智能产业发展的重大举措。《方案》紧扣新质生产力培育与未来产业布局需求,以高质量数据为核心,以六大专项行动为抓手,构建数据供给、流通、应用、价值释放的良性循环,为我国从“数据大国”向“数据强国”跨越提供关键支撑。
当前,人工智能发展已进入数据驱动的新阶段,高质量数据集的战略意义愈发凸显。下一步,各方需深入贯彻落实《方案》要求,坚持自主创新、应用牵引、生态协同、开放共赢、安全可控,共同推进高质量数据集建设,充分释放数据要素价值,为数字中国建设、中国式现代化注入强大数据动能,助力我国在全球智能经济竞争中赢得主动、占据先机。