标签

专家解析:夯实数据根基,促进“人工智能+”创新发展

发布时间:2026-06-29 12:35阅读:2

文 |上海阶跃星辰智能科技股份有限公司创始人、CEO 姜大昕

数据作为人工智能发展的三大核心要素之一,是支撑大模型训练、应用的关键基础。高质量数据集直接影响模型的“智商与品性”,也是制约“人工智能+”落地见效的基础性、关键性问题。

习近平主席在向世界数据组织成立致贺信中指出,当今世界正在加速迈入智能时代,数据的基础资源作用和创新引擎作用日渐显现。国务院《关于深入实施“人工智能+”行动的意见》也明确提出要加强数据供给创新,以应用为导向,持续加强人工智能高质量数据集建设。国家发展改革委等部门也联合印发《关于促进数据产业高质量发展的指导意见》,加快深化数据要素市场化配置改革、构建以数据为关键要素的数字经济。近期国家数据局印发的《关于推进行业高质量数据集建设行动的实施方案》,充分回应了产业发展的迫切需求,非常及时、很有必要,必将为行业发展奠定更加坚实的基础。

一、直击供给、质量的痛点:高质量数据“量质齐缺”

从当前技术演进路线看,“缩放定律”(Scaling Law)依然是决定模型能力上限的核心逻辑,模型的综合性能、泛化能力,很大程度取决于训练数据的规模够不够大、质量够不够高、覆盖场景够不够多元。海量、高质量的数据是AI技术迭代的核心“燃料”,没有充足合规的数据供给,再顶尖的算法都难以突破能力瓶颈,大模型也将面临无米之炊:从“量”看,全球高质量中文语料占比严重偏低。中国工程院研究表明,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。同时,西方国家类似Common crawl、开源数据集、素材网站相对比较健全,我国在数据开放度与多样性上还处于发展期,总体开源规模和应用广度有限;从“质”看,原始数据治理能力尚存短板,充斥着大量噪声、冗余和偏见,需要经过复杂的清洗、标注和治理才能用于模型训练。此外,还存在行业细分场景覆盖不足,长尾场景缺数据,专业领域(如法律、医学等)语料数字化进展缓慢、数据清洗难度大、标注成本高等问题。

针对上述问题,《实施方案》打出三大行动组合拳。强基扩容行动聚焦国民经济主干道和未来竞争新赛道两大主战场,支持链主单位牵头组建产业链联合体共建数据集,明确要求链主单位面向行业开放数据集、赋能上下游中小企业,既解决了中小主体“建不起、建不全”的资源短板,也打破了公共数据“沉睡在库里出不来”的困局。标注攻坚行动将数据标注从“拉框工人”升级为“专家深度参与”的知识密集型产业,建立“行业专家认证注册机制”,让专业人士参与指令微调、强化学习等标注工作,解决了行业数据“标不准、专业度低”的短板。提质增效行动明确提出构建“人工智能就绪”(AI-Ready)的高质量数据集,推动“一次测评、全国互认”,让大模型企业不再需要在数据清洗上消耗大量精力。三大行动形成完整供给链路:强基扩容保