面向人工智能的公共语料库:概念、就绪框架与发展路径
《电子政务》2026年第4期
引用格式:
人工智能就绪的公共语料库:
概念、框架与路径
郑磊 杨涛
一、研究背景
以大规模语言模型为代表的生成式人工智能正在引发一场深刻的范式变革。在此过程中,数据资源正成为驱动智能涌现、决定模型认知边界的关键基础。大语言模型的性能遵循“缩放定律”,其能力高低很大程度上取决于训练数据的质量、规模、多样性以及语义深度。然而,当前全球人工智能发展正面临日益严峻的“数据瓶颈”。一方面,语料数据的供给与需求之间形成了显著的“剪刀差”。互联网上高质量公开数据的自然增长速度,已远远跟不上大模型训练需求的指数级增长。有预测显示,全球高质量公开网络语言数据可能在2028年左右面临“枯竭”。并且,这类公开数据普遍存在信噪比低、知识碎片化、价值导向模糊等问题,远未达到大模型训练所需的“AI就绪”标准。另一方面,数据资源的“壁垒化”趋势日益明显。头部商业平台纷纷构筑“数据护城河”,使得以往依赖低成本抓取来积累大规模语料的模式难以为继。
在此背景下,公共数据被视为破解语料供给困境、支撑大模型训练的重要战略资源。政府部门和公共机构在长期的行政管理与公共服务实践中,积累了涵盖政策文件、执法记录、政务对话、城市感知等多模态的海量数据。这些数据具有天然的权威性、规范性和逻辑性,且规模庞大、潜在价值高,蕴含了与国计民生密切相关的规则、规律和专业知识,是训练政务智能体及各类智能系统的优质语料素材。然而,这些存量数据大多是为适应传统业务流程而产生的,与大模型所需的“AI就绪”语料之间存在显著的工程鸿沟。过去,政府共享开放的数据集多为结构化的表格或关系型数据库,在数据提炼过程中,不可避免地丢失了丰富的背景信息和逻辑上下文。同时,仍有大量政务文档以非数字化形式保存,即便已完成数字化的部分,也存在语义标注精度不足、跨模态关联对齐水平不高等问题,进一步加大了语料适配的难度。此外,公共部门对AI公共语料库的建设与开放共享认识不足,不仅对其核心内涵把握不清,也未能充分认识其价值规律,严重制约了公共语料的有效治理与利用。因此,盘活现有公共数据资源,建设适配本土语境、兼具可靠性与逻辑深度的公共语料库,破解语料供给难题,已成为关乎国家长远发展与战略自主的重要课题。
放眼全球,推动“AI就绪”公共数据的共享开放,已成为加强训练语料供给、赋能人工智能发展的重要举措。美国先后发布《生成式人工智能与开放数据:指南与最佳实践》、《赢得竞赛:美国人工智能行动计划》等政策文件,为政府机构准备和发布“AI就绪”数据集提供保障与指导。欧盟则通过《数据法案》及“欧洲公共数据空间”建设等措施,强化政府高价值数据向AI可用训练资源的转化与治理。韩国也发布了一系列面向AI发展的公共数据开放及利用计划,重点加强高价值“AI就绪”公共数据的治理和供给工作。
我国也在加速面向AI发展的公共数据战略布局。《中华人民共和国国民经济和社会发展第十五个五年规划纲要》强调要加强公共数据供给利用,加快建设人工智能语料库。《“数据要素×”三年行动计划(2024-2026年)》《国务院关于深入实施“人工智能+”行动的意见》《生成式人工智能服务管理暂行办法》等政策文件,也明确鼓励通过公共数据的开发利用,支撑和促进AI技术发展。在地方实践层面,上海、杭州、深圳、贵州等地正在积极探索扩大公共语料数据供给的机制创新。
然而,当前学术界对这一新兴议题的理论回应仍较为有限。随着AI技术的爆发式发展,现有研究已关注到AI发展对公共数据生态系统的变革影响,以及对传统政府数据开放范式的“边界重构”挑战。相关研究指出了政府作为关键AI数据要素供给者的责任,并围绕高质量训练数据的法律规制与技术规范展开了制度建构探讨。同时,部分研究也已将语料库视为突破AI数据瓶颈、提升国家AI竞争力的新型基础设施。这些研究虽已勾勒出“AI公共语料库”这一议题的基本轮廓,但仍存在深层次局限。一方面,以往关于公共数据开发利用的研究,多聚焦于结构化数据集或传统语料库,未能有效回应大语言模型对训练语料的特殊工程化需求与就绪性要求。另一方面,既有研究在探讨AI公共语料库技术性就绪的同时,忽视了其在价值层面的就绪性内涵,未能兼顾技术适配与价值导向的双重需求。鉴于此,本研究旨在系统界定AI公共语料库的概念内涵,构建复合视角的就绪框架,并探讨其价值实现路径。
二、AI公共语料库的概念内涵:
“AI的”与“公共的”
要准确把握AI公共语料库这一核心概念,既需要厘清其作为AI基础设施的技术性内涵,明确其与普通数据资源的本质区别,也需要系统解析其公共属性,实现技术性与公共性的有机统一。
(一)“AI就绪”的语料库:技术性内涵及其重构
近年来,学术界与实务界已广泛应用“数据集”“语料库”“训练数据”“AI就绪数据”“高质量数据集”等术语,但彼此之间的界限较为模糊。为厘清“AI语料库”的核心内涵,有必要对这些概念进行辨析。
数据集是一个组织形式概念,指按特定结构组织的数据集合,目的是方便计算机读取、处理和使用。它像一个“容器”,可泛指按照统一格式有序组织的数据集合,如结构化的表格、按类别整理的图片文件夹等。在AI语境下,数据集更多是指为特定任务构建的、带有明确“输入-输出”标签的“任务型数据集”。
语料库是一个内容类型概念,主要是指以语言数据为核心、经过系统化加工的资源集合。语料库这一术语起源于语言学领域。20世纪60年代,相关研究将这种“为研究语言而系统收集的真实语言材料集合”定义为语料库。长期以来,其主要作用是供研究人员研究语言规律的“分析样本”。
然而,随着计算语言学的兴起,特别是大规模预训练模型的爆发,语料库的内涵发生了深刻重构,从服务于人类认知的静态档案,演变为驱动机器认识世界的动态“教材”。在AI语境下,语料库特指用于支撑大模型预训练的自然语言资源集合,主要包含书面文本、口语转录或两者的组合。它通常以数据集的形式存在以便于模型使用,但与任务型数据集存在本质区别:前者主要服务于模型的预训练阶段,使命是让模型通过海量、真实的语言材料建立对世界的通用认知,如同对人进行“通识教育”,让AI学会“听话、说话”(语言能力),追求规模、广度、多样性与上下文连贯性;后者主要服务于微调与测试等后训练环节,使命是让模型通过任务导向、结构化的标注数据习得特定技能,如同对人进行“专业教育”,让AI学会“做题、干活”(任务能力),关注精度、任务适配性与可量化评估。二者的主要差异见表1。
训练数据则是一个功能概念,可泛指用于训练AI模型的数据,无论其内容类型或组织形式如何,涵盖了语料库、任务型数据集等多种形态。语料库作为其中具有特定内容取向的子类,专注于语言数据,从而成为构建AI模型基础认知、常识体系与复杂逻辑不可替代的底层资源。而“AI就绪数据”和“高质量数据集”两个概念则多指向训练数据的“达标状态”,前者侧重AI训练适配的技术工程标准,而后者则兼具治理规范与应用价值视角。
需要指出的是,随着“预训练+微调”成为AI模型训练的主流范式,语料库的“任务化”与任务型数据集的“语言化”正在并行发展。不少传统语料库逐渐任务导向化,成为可同时支持预训练和多任务建模的“语料型数据集”;同时,许多经典数据集开始吸纳语料库构建原则,强调语言真实性与语料多样性,构成可计算和理解上下文的“数据型语料库”。尤其是在多模态人工智能的推动下,部分传统的文本语料库与任务型数据集逐步融合为一体化资源,二者功能日益交汇、界限趋于模糊。
这一趋势驱动传统语料库与任务型数据集从“分野”走向“同构”,催生了支撑机器复杂认知训练的“AI就绪语料库”新范式。一方面,从内容维度看,AI就绪语料库以语言数据为核心。因此,在信息表达中语言占据核心地位的数据,无论是否包含图像、视频等其他模态,均可纳入其范畴;而纯数值型数据及无语言模态的视觉数据则不属于。另一方面,从功能维度看,AI就绪语料库以支撑AI模型训练为基准,达到机器可理解层级、服务于模型训练的数据,即可纳入其范畴;而缺乏上下文语义信息的原始数据、仅供人类查阅的档案则不在此列。因此,AI就绪语料库也包含了经过语言化改造、保留了语言真实性的任务型数据集,即数据型语料库;而纯粹为特定任务构造、缺乏语言真实性的数据,则更宜归入一般任务型数据集。换言之,AI就绪语料库以语言数据为核心、以“语言真实性”为门槛,同时兼容经过语言化改造的多模态数据。
参考国际标准化组织(ISO)和国际电工委员会(IEC)提出的SMART模型,以及我国的机器可读标准(GB/T 45508-2025),以机器对信息不同层次的理解和执行能力为标尺,AI就绪语料库的内涵及其发展态势可如图1所示。
综上,本文将AI就绪语料库界定为:为支撑人工智能模型训练,遵循机器认知规律,经系统性加工处理而构建的,以语言数据为核心、兼容多模态数据,具备规模化、高知识密度与迭代进化能力的数据资源集合。该集合构成一个连续谱系,涵盖从基础性预训练语料库到语言化任务型数据集这一区间。
(二)“公共的”AI语料库:公共属性的解析
在技术属性的“AI就绪”之外,为深入解析AI公共语料库的本质,还需重点回答三个核心问题:它是什么性质,为什么是公共的,为谁服务。
⒈本体属性:“数智公物”与新型公共基础设施
首先,需要回答AI公共语料库是“什么性质的物品”。从物品属性来看,公共数据具有非竞争性、非排他性(也不应该有排他性),需要且应该通过各种行政性、法律性强制规定来开放与共享。作为公共数据的组成部分,AI公共语料库同样具备显著的公共物品属性,关乎公共利益与公共价值,应在制度上明确其公共资源定位。
基于这一本体属性,AI公共语料库应同传统的水、电、道路、网络等公共基础设施一样,视为由公共部门主导建设运营的数智公共基础设施。公共语料蕴含着社会各方的公共利益和基础信息,具有强大的正外部性、规模效应与网络效应,结合各类社会场景后有望产生巨大价值,其发展水平关乎国家AI产业整体竞争力与发展安全。同时,也正因其建设周期长、投资规模大、战略意义重大,且绝大部分“建材”源自公共部门,使其成为超越了单个市场主体的能力和责任边界的基础性资源。这种基础性、外部性和战略性,决定了它作为“数智公物”的根本定位,即一种服务于全社会的新型公共基础设施。
⒉权利属性:公共财政与公共信托
在明确了AI公共语料库的本体性质之后,还需要追问它“为什么是公共的”。公共语料库的权利属性,取决于其生成与存续的法理基础。从权利