国家数据局局长刘烈宏:AI新范式,从流量到词元的价值重塑
作者 | 数据资产讲堂
4月29日,福州。在第九届数字中国建设峰会的中国移动人工智能生态大会上,国家数据局局长刘烈宏公布了一组惊人的数据,令全场为之瞩目。
我国日均词元调用量在两年内实现了超过千倍的增长,达到了惊人的140万亿次。
短短两年时间,增长千倍,这样的增长速度在任何行业都堪称惊人。刘烈宏深入剖析了这一现象背后的重要信号——人工智能产业的价值逻辑正经历一场深刻的转变,从以往的流量驱动转向以词元为核心的驱动模式。
这不仅仅是技术层面的概念更新,更意味着整个产业在盈利方式、成本核算以及投资决策等基本面上发生了根本性变化。
试图用传统的流量思维来理解当前的人工智能,只会越来越感到力不从心。
回顾过去二十年,互联网的经济模式清晰可见:通过吸引用户,增加用户使用时长,最终通过广告变现。其核心衡量指标便是日活跃用户(DAU)、月活跃用户(MAU)以及点击率。然而,人工智能的运作机制截然不同。
大型模型在回应每一个用户请求时,都需要进行数十亿参数的推理计算。每一次调用都伴随着算力成本,并且每一次输出都必须达到一定的质量标准。试想一下,如果一个用户一天与AI进行了100次交互,其消耗的算力资源可能足以支撑他观看一个月的短视频。
词元(Token)已经成为人工智能领域最基础的计量单位。无论是用户提问消耗的词元数量,模型回答所消耗的词元,还是训练一个行业模型所需的词元总量,所有环节都可以通过词元来精确衡量。
刘烈宏用了一个生动的比喻来阐释:在流量时代,数据主要被视为传输和存储的对象,其传输内容和质量并非关注的重点。而在智能经济时代,词元的重要性日益凸显,数据质量的优劣直接决定了模型训练的效果以及智能服务的品质。
刘烈宏将2026年定位为智能体加速落地的关键年份。以智能体为代表的新兴业态,正在将词元从单纯的技术参数转化为具有商业价值的基本单元。
刘烈宏在本次演讲中提出了四点具有指导意义的思考方向,对于所有从事数据、人工智能及数字化转型相关工作的人员都具有重要的参考价值。
第一,深化高质量数据集的建设。
刘烈宏的原话是:“人工智能发展到哪里,高质量数据集建设和应用就推进到哪里。”
这并非一句空泛的口号。高质量数据集正从一个“锦上添花”的选项转变为“不可或缺”的基础。国家数据局正致力于培育对高质量数据付费的市场共识,同时建立公共数据资源开发利用的责任机制,以促进企业数据和行业数据的有序开发与开放。在科学研究、工业制造、农业农村、低空经济以及具身智能等领域,高质量数据集的建设正成为重点攻坚的方向。
第二,高质量地建设基础设施。
在流量时代,重点在于投入资金扩大网络覆盖和提升带宽。而在智能经济时代,算力已成为真正的核心支撑。
词元消耗量已成为衡量数据基础设施效能的关键指标——每一次智能推理,每一个词元的生成,都离不开背后消耗的算力。刘烈宏透露,数据基础设施以及全国一体化算力网络的建设已被纳入国家“十五五”规划的109项重大工程项目之中。
下一步,国家数据局将制定并实施国家数据基础设施建设的五年行动计划,深入推进“东数西算”工程,加速构建全国一体化的算力网络。算力资源的配置正从企业层面的采购行为,上升为国家层面的战略布局。
第三,积极推动商业模式的创新。
这是演讲中一个尤为关键且引人深思的方向。刘烈宏强调:“不能简单复制‘低价抢市场、补贴换规模’的流量时代传统打法。当前词元价格虽然有竞争力,但如果长期靠着低毛利运行,产业链没有合理的利润,创新是很难持续的。”
换言之,尽管当前各人工智能公司在价格战中竞争激烈,但如果整个产业链都无法实现盈利,那么谁还会愿意投资研发下一代模型呢?刘烈宏提出的解决方案是——积极探索词元的市场化定价与结算机制,确保价格信号能够真实反映算力成本和服务质量。如此一来,竞争的焦点将从“谁的价格更低”转移到“谁的服务更有价值”上。
最终,将促成一个良性循环:技术不断迭代更新→成本逐步下降→应用场景日益扩大。
第四,构建优良的产业发展生态。
与流量时代相比,智能时代的产业链条更为漫长,参与者也更为广泛。从模型研发、算力供应、数据加工到智能体应用,没有任何一个环节能够独立完成所有任务。刘烈宏特别强调了“模芯云用”的协同创新——模型、芯片、云服务以及应用,必须实现紧密联动和协同发展。
在阐述完以上四个方向后,我们回归到最受关注的问题:这些变化对数据资产管理有何影响?
最核心的一点是——词元驱动将“数据价值”这一概念,从抽象的口号转变为可量化的经济指标。
在流量时代,准确评估数据的经济价值往往十分困难。然而,在词元时代,情况则大不相同。高质量的训练数据能够直接降低模型在推理过程中消耗的词元数量,这意味着数据的质量可以直接折算为算力成本的节约。
这为数据资产的入表提供了更为坚实的价值依据。过去,我们谈论数据资产时,多为定性描述。现在,我们可以进行量化计算:一份经过精细标注的行业数据集,能够为某个智能体带来多少单位推理成本的降低。这个量化的数值,便是数据资产的实际价值所在。
此外,刘烈宏还提及国家数据局正在支持包括数据在内的无形资产的投资。结合当前正在推进的数据产权登记制度和全国一体化数据市场建设,数据资产从“能够纳入财务报表”到“能够进行交易”,再到“能够用于融资”的完整路径,正在被加速打通。
结语
从流量驱动到词元驱动的转变,本质上是产业从粗放式运营迈向精细化管理的升级过程。
140万亿次的日均调用量仅仅是一个开始。当每一个词元都被赋予价格、被精确计量、被持续优化,整个人工智能产业的运行逻辑都将被重新书写。而高质量的数据集,正是这一切基础设施中的核心基础。
人工智能技术所及之处,高质量数据集的建设必将随之推进。这句话,值得所有数据从业者牢记。
#词元驱动#刘烈宏#高质量数据集#数据要素#算力基础设施#人工智能#数据资产#智能体#东数西算#商业模式创新
参考资料
内容