AI下半场:较量焦点从“知识量”转向“执行力”
国家数据局近日发布的《关于推进行业高质量数据集建设的行动实施方案》(下文简称《方案》)明确指出,到2028年末将建成一批覆盖关键领域、通过应用检验的行业高质量数据集,并培育一批数据驱动人工智能创新发展的示范应用场景。国家数据局推出的这份《方案》,为AI发展提供了充足的"燃料"。然而,燃料堆放在仓库中并不会自动转化为动力,还需要产业端的"发动机"来激活。当数据集建设从政策文本转化为车间生产力、从实验室指标转变为市场资金流时,中国AI才算真正完成了产业化的"最后一公里"。
截至2026年第一季度,全国已建成的高质量数据集超过11.6万个,总量突破960PB,日均词元调用量超过140万亿。这组数据置于全球AI竞争的背景下审视,传递的信号十分明确:中国AI的发展逻辑正在经历一次关键转变。过去两三年间,行业热衷于比拼模型参数、算力规模以及通用对话能力,这在某种程度上是一场"规模制胜"的竞赛。而如今,11.6万个行业数据集的布局,预示着竞争重心已从"谁的对话更流畅"转向"谁能真正深入产业一线解决实际问题"。
这一转变具有其内在必然性。通用大模型无论多么智能,一旦进入工厂、农田、医院、驾驶舱等场景,面对的都是高度专业化的需求。未经行业数据"训练"的模型,恰似手持百科全书去维修发动机,虽知识丰富却难以施展。《方案》聚焦工业制造、智慧能源、交通运输,乃至低空经济、具身智能、智能驾驶等创新领域,正是基于这一判断——AI的下半场,竞争的焦点已从"懂多少"转向"能干啥"。
然而,数据集的建成仅仅是第一步。960PB的数据规模已相当庞大,但真正的瓶颈并不在于"是否拥有",而在于"能否有效运转"。《方案》提出要构建"场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值"的数据飞轮,这一表述值得深入解读。飞轮要持续转动,依靠的并非一次性将燃料堆满,而是每个环节都能持续输出动力。当前行业数据分散、标准不统一、模型适配性不足,本质上就是飞轮的齿轮尚未紧密啮合。
更深层次的变革蕴含在"词元交易"这一概念中。《方案》提出探索词元交易等新型交易模式,建立可量化、可定价的数据价值体系。这意味着数据正从传统的"生产资料"演变为可流通的"数字资产"。一旦数据的价值能够被精确计量并顺畅流通,整个AI产业的协作模式都将被重塑。数据标注企业、模型开发商、行业应用方之间的关系,将从松散的合作转变为紧密的价值链条。
当然,从政策文件到落地实施仍有距离。低空经济需要多模态的物理交互数据,具身智能需要高精度的仿真数据,智能驾驶需要海量的场景测试数据,这些都无法依靠行政命令快速催生,需要企业在真实场景中持续试错、不断回流。换言之,高质量数据集并非"建设"出来的,而是"应用"出来的。唯有让数据在产业实践中不断打磨、迭代、验证,才能真正称得上"高质量"。