标签

夯实数据底座,驱动“人工智能+”跨越发展

发布时间:2026-06-24 20:41阅读:2

数据乃人工智能三大核心要素之一,是支撑大模型训练与应用的根基。优质数据集直接决定模型的“智商与品性”,更是掣肘“人工智能+”落地见效的基础性与关键性难题。

习近平主席在致世界数据组织成立的贺信中强调,当今世界正加速步入智能时代,数据的基础资源与创新引擎作用日益凸显。国务院《关于深入实施“人工智能+”行动的意见》亦明确指出需加强数据供给创新,以应用为导向,持续推进人工智能优质数据集建设。国家发改委等部门联合发布《关于促进数据产业高质量发展的指导意见》,加速深化数据要素市场化配置改革,构建以数据为关键要素的数字经济。近期国家数据局出台的《关于推进行业高质量数据集建设行动的实施方案》,精准回应了产业发展的迫切诉求,恰逢其时且至关重要,必将为行业前行奠定更为坚实的根基。

一、直击供给与质量痛点:优质数据“量质双缺”

从当前技术演进路径来看,“缩放定律”(Scaling Law)仍是决定模型能力上限的核心逻辑,模型的综合性能与泛化能力,极大程度上依赖于训练数据的规模、质量及场景多元性。海量且优质的数据是AI技术迭代的“燃料”,若缺乏充足合规的数据供给,再卓越的算法也难以突破能力瓶颈,大模型将陷入无米之炊:从“量”来看,全球优质中文语料占比极低。中国工程院研究显示,全球通用的50亿大模型数据训练集中,中文语料占比仅1.3%。同时,西方国家如Common crawl、开源数据集及素材网站相对完善,我国在数据开放度与多样性上仍处发展期,整体开源规模与应用广度受限;从“质”来看,原始数据治理能力尚存短板,充斥大量噪声、冗余与偏见,需经复杂清洗、标注及治理方可用于模型训练。此外,行业细分场景覆盖不足,长尾场景缺乏数据,专业领域(如法律、医学等)语料数字化进程缓慢、数据清洗难度大、标注成本高等问题依然存在。

针对上述问题,《实施方案》打出三大行动组合拳。强基扩容行动聚焦国民经济主干道与未来竞争新赛道两大主战场,支持链主单位牵头组建产业链联合体共建数据集,明确要求链主单位面向行业开放数据集、赋能上下游中小企业,既化解了中小主体“建不起、建不全”的资源短板,也打破了公共数据“沉睡在库里出不来”的困局。标注攻坚行动将数据标注从“拉框工人”升级为“专家深度参与”的知识密集型产业,建立“行业专家认证注册机制”,让专业人士参与指令微调、强化学习等标注工作,解决了行业数据“标不准、专业度低”的短板。提质增效行动明确提出构建“人工智能就绪”(AI-Ready)的优质数据集,推动“一次测评、全国互认”,让大模型企业不再需在数据清洗上耗费大量精力。三大行动形成完整供给链路:强基扩容保