标签

专家观点:夯实数据根基,加速“人工智能+”创新升级

发布时间:2026-06-19 09:29阅读:1

文 |上海阶跃星辰智能科技股份有限公司创始人、CEO 姜大昕

数据是人工智能发展的三大核心要素之一,也是支撑大模型训练与应用的重要基石。高质量数据集直接决定模型的“智能水平与价值取向”,更是制约“人工智能+”落地见效的根本性、关键性问题。

习近平主席在向世界数据组织成立致贺信中强调,当今世界正加速迈入智能时代,数据的基础资源功能与创新驱动作用日益凸显。国务院《关于深入实施“人工智能+”行动的意见》也清楚指出要加强数据供给创新,以应用为引领,持续推进人工智能高质量数据集建设。国家发展改革委等部门联合发布《关于促进数据产业高质量发展的指导意见》,加速深化数据要素市场化配置改革、构建以数据为核心要素的数字经济。近期国家数据局印发的《关于推进行业高质量数据集建设行动的实施方案》,精准回应了产业发展的迫切需求,恰逢其时、十分必要,必将为行业发展筑牢更加稳固的根基。

一、聚焦供给与质量难题:高质量数据面临“量与质双重短缺”

从当前技术演进路径来看,“缩放定律”(Scaling Law)依旧是决定模型能力上限的核心逻辑,模型的综合性能、泛化水平,很大程度上取决于训练数据的规模是否充足、质量是否过硬、覆盖场景是否多元。海量、高质量的数据是AI技术迭代的核心“动力源”,缺乏充足合规的数据供给,再先进的算法都难以突破能力瓶颈,大模型也将陷入无米下锅的困境:从“量”的层面看,全球高质量中文语料占比明显偏低。中国工程院研究显示,全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%。同时,西方国家类似Common crawl、开源数据集、素材网站体系相对成熟,我国在数据开放程度与多样性方面仍处于发展阶段,整体开源规模和应用广度有限;从“质”的层面看,原始数据治理能力仍有不足,存在大量噪声、冗余与偏见,需经过复杂的清洗、标注与治理才能用于模型训练。此外,还存在行业细分场景覆盖不够、长尾场景数据匮乏,专业领域(如法律、医学等)语料数字化进程迟缓、数据清洗难度高、标注成本居高不下等问题。

针对上述挑战,《实施方案》打出三大行动组合拳。强基扩容行动聚焦国民经济核心领域与未来竞争新赛道两大主战场,支持链主单位牵头组建产业链联合体共建数据集,明确要求链主单位面向行业开放数据集、赋能上下游中小企业,既弥补了中小主体“建不起、建不全”的资源短板,也打破了公共数据“沉睡在库里出不来”的僵局。标注攻坚行动将数据标注从“简单拉框”升级为“专家深度参与”的知识密集型产业,建立“行业专家认证注册机制”,让专业人士参与指令微调、强化学习等标注工作,弥补了行业数据“标不准、专业度低”的不足。提质增效行动明确提出构建“人工智能就绪”(AI-Ready)的高质量数据集,推动“一次测评、全国互认”,让大模型企业无需在数据清洗上耗费大量精力。三大行动形成完整供给链路:强基扩容保