标签

专家解读|陈志刚:锚定AI就绪:以高质量数据集夯实人工智能根基

发布时间:2026-06-14 23:35阅读:1

传统的平面文本或图像数据,已难以满足新一代人工智能对现实世界深度理解与复杂逻辑推理的训练需求。随着智能体、具身智能、世界模型等新型智能形态的涌现,海量且具深度的多模态数据变得尤为迫切。这不仅涵盖点云、时序数据、科学数据等基础形式,更对复杂任务规划、长程推理、人机交互,以及重点场景下的物理交互、环境感知、运动控制等“真机交互数据集”提出了全新要求。为此,《实施方案》高瞻远瞩地提出“积极应用仿真模拟与合成技术扩大数据供给”,并前瞻布局世界模型等前沿方向。这标志着国家在战略层面,已将数据集建设的视角从“历史数据的被动整理”提升至“面向未来智能形态的主动重构”,深刻回应了“新范式下需要何种数据”的时代命题。

面对行业数字化错综复杂的现状,《实施方案》首次在国家政策层面深化了行业高质量数据集的概念,清晰界定了其“包含行业通识与行业专识数据集”的内涵,并就建设目标、分类内容、推进路径及数据形态提供了系统的方法论,旨在加速构建符合“人工智能就绪(AI-Ready)”标准的高质量数据集。

《实施方案》不仅明确了科学研究、工业制造等19个重点领域及低空经济、具身智能等5大创新领域的分类建设内容,更理顺了“以应用为牵引、急用先行”的系统方法。在建设路径上,政策精准部署了两条主线:一是“强化链主单位牵引”,支持链主单位以联合体形式带动上下游协同共建,打破“数据孤岛”与“数据烟囱”;二是“加大公共数据资源开发利用力度”,推动公共数据与行业数据深度融合。通过这一整套科学的方法论,我国将推动数据集建设实现从供给到价值释放的良性循环,大幅降低模型训练与推理成本,显著提升模型性能,让高质量数据集真正成为产业数智化转型的“核心加速器”。

大潮奔涌,唯有夯实根基,方能行稳致远。《关于推进行业高质量数据集建设行动的实施方案》的发布,标志着我国人工智能发展正式迈入“数据要素与算法模型双轮驱动”的新阶段。通过构建“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,这一宏伟蓝图必将催生出数据产业与智能经济深度融合的新增长点。

各地、各行业及各类市场主体应紧抓历史机遇,以应用为牵引,笃行不怠,共同构建数据要素与人工智能协同演进的共生生态,为数字中国建设与智能时代的全面到来构筑坚不可摧的要素基石。