标签

数智新解:王坚院士论词元与数据价值革命

发布时间:2026-06-07 19:02来源:微信阅读:2

伴随人工智能核心概念 Token 正式确立为“词元”,一组数据引发热议:2024 年初我国日均词元调用量达 1000 亿,2025 年底飙升至 100 万亿,2026 年 3 月更突破 140 万亿,两年内增幅超千倍。从对话互动到决策落地,AI 应用场景不断拓展,我国 AI 产业竞争力显著提升,数据供给急剧增加,数据要素价值持续释放。

词元作为大模型理解、处理及生成信息的最小单元,渗透于各类智能应用中,赋予数据可计量、可定价、可交易的特性,正成为衡量智能经济、量化数据价值的新标尺,深刻重塑日常生活、产业变革与商业前景。

词元的诞生及其核心价值

Token 在人工智能领域被正式命名为词元,是大模型理解、处理、生成信息的最小单元,早已潜伏于每一次 AI 交互与每一项智能应用的背后。从日常智能对话、内容创作,到产业端的智能研发、数字决策,词元宛如智能时代的通用计量单位,连接技术、产业与市场,使数据在智能时代具备可计量、可定价、可交易的特征,成为衡量智能经济、量化数据价值的全新尺度。

长久以来,我们谈论信息、讨论数据,却从未真正厘清二者区别。无论是比特还是字节,虽是信息时代的优秀度量,却一直被用于度量数据,缺乏专属于数据、符合智能时代特征的计量方式。词元的出现,正是区分数据与信息的关键分水岭。

传统字节以固定长度表达文字,一个汉字对应两个字节,例如“我喜欢你”4 个汉字即为 8 个字节,这仅是物理层面的简单记录;而词元依据人工智能理解世界的方式,将语句拆解为最小处理单元,它不完全遵循人类直觉的字词划分,可能将“我”和“喜欢”各作为一个单元、“你”作为一个单元,以更契合模型处理逻辑的方式完成语义切分。本质上,词元首先是数据的计量单位,如同生活中的“斤两”,不同内容、不同价值的词元对应不同成本与价值,让数据首次拥有清晰可度量的基础。

词元更推动数据价值实现升华。2017 年随 Transformer 架构进入人工智能视野后,词元赋予数据独特的“身份”与“人格”——任何原始数据若不经过词元化(Tokenization),便无法进入人工智能模型、无法被智能系统使用。数据要真正产生价值,必须历经三步:

第一,将人工智能模型无法直接使用的原始数据转化为词元;

第二,在模型中建立词元间的关联,将零散知识整合成体系;

第三,依据应用需求,模型再以词元为基本单元转化为可输出、可应用的内容。这一过程高度依赖技术与算力,而词元能综合反映数据价值、模型优劣与算力强度,是目前唯一能统一度量三者的核心单元。

更为关键的是,词元是数据要素市场形成的显著标志。过去数据交易市场难以真正落地,核心原因在于数据价值无法统一计量、认定成本过高,甚至超过数据本身价值。词元作为统一的计量与计价单元,使数据在流通中可自动结算,大幅降低产业链成本、提升流通效率,让磁盘上的比特真正转化为可流动、可交易、可增值的数据要素。正如菜市场离不开“斤两”,词元赋予数据要素市场运行的基础,标志着数据要素市场从理念走向现实。

词元的核心运行逻辑

词元的运行与消耗,遵循人工智能时代的底层规律,清晰展现算力、数据与模型三者协同的内在联系。

词元是人工智能模型操作的最小单元。模型的思维链构建、推理过程推演、内容生成输出,所有运算操作的最小对象均为词元,无论输入内容长短、推理逻

辑深浅,系统最终均需拆解为词元进行处理,这是词元运行的基础逻辑。