专家观点：夯实数据根基，加速“人工智能+”创新升级

发布时间：2026-06-19 09:29阅读：22

文 |上海阶跃星辰智能科技股份有限公司创始人、CEO 姜大昕

数据是人工智能发展的三大核心要素之一，也是支撑大模型训练与应用的重要基石。高质量数据集直接决定模型的“智能水平与价值取向”，更是制约“人工智能+”落地见效的根本性、关键性问题。

习近平主席在向世界数据组织成立致贺信中强调，当今世界正加速迈入智能时代，数据的基础资源功能与创新驱动作用日益凸显。国务院《关于深入实施“人工智能+”行动的意见》也清楚指出要加强数据供给创新，以应用为引领，持续推进人工智能高质量数据集建设。国家发展改革委等部门联合发布《关于促进数据产业高质量发展的指导意见》，加速深化数据要素市场化配置改革、构建以数据为核心要素的数字经济。近期国家数据局印发的《关于推进行业高质量数据集建设行动的实施方案》，精准回应了产业发展的迫切需求，恰逢其时、十分必要，必将为行业发展筑牢更加稳固的根基。

一、聚焦供给与质量难题：高质量数据面临“量与质双重短缺”

从当前技术演进路径来看，“缩放定律”（Scaling Law）依旧是决定模型能力上限的核心逻辑，模型的综合性能、泛化水平，很大程度上取决于训练数据的规模是否充足、质量是否过硬、覆盖场景是否多元。海量、高质量的数据是AI技术迭代的核心“动力源”，缺乏充足合规的数据供给，再先进的算法都难以突破能力瓶颈，大模型也将陷入无米下锅的困境：从“量”的层面看，全球高质量中文语料占比明显偏低。中国工程院研究显示，全球通用的50亿大模型数据训练集中，中文语料占比仅为1.3%。同时，西方国家类似Common crawl、开源数据集、素材网站体系相对成熟，我国在数据开放程度与多样性方面仍处于发展阶段，整体开源规模和应用广度有限；从“质”的层面看，原始数据治理能力仍有不足，存在大量噪声、冗余与偏见，需经过复杂的清洗、标注与治理才能用于模型训练。此外，还存在行业细分场景覆盖不够、长尾场景数据匮乏，专业领域（如法律、医学等）语料数字化进程迟缓、数据清洗难度高、标注成本居高不下等问题。

针对上述挑战，《实施方案》打出三大行动组合拳。强基扩容行动聚焦国民经济核心领域与未来竞争新赛道两大主战场，支持链主单位牵头组建产业链联合体共建数据集，明确要求链主单位面向行业开放数据集、赋能上下游中小企业，既弥补了中小主体“建不起、建不全”的资源短板，也打破了公共数据“沉睡在库里出不来”的僵局。标注攻坚行动将数据标注从“简单拉框”升级为“专家深度参与”的知识密集型产业，建立“行业专家认证注册机制”，让专业人士参与指令微调、强化学习等标注工作，弥补了行业数据“标不准、专业度低”的不足。提质增效行动明确提出构建“人工智能就绪”（AI-Ready）的高质量数据集，推动“一次测评、全国互认”，让大模型企业无需在数据清洗上耗费大量精力。三大行动形成完整供给链路：强基扩容保

← 上一篇：智领未来融通世界 | 云生集团李贤威畅谈AI Agent全球化布局下一篇：AI影视教育普及：从名校到普通院校，人才培养格局重塑 →