标签

AI术语‘词元’正式定名,告别‘令牌’时代

发布时间:2026-04-01 11:47来源:微信阅读:10

日均调用量突破140万亿,这个词我们天天见

你有没有遇到过这样的场景:跟朋友聊AI,说“Token”,对方一头雾水;说“令牌”,总觉得哪里怪怪的;说“标记”,又好像不太准确。

这个困扰中国AI圈多年的“翻译难题”,终于有了官方答案。

就在前几天,全国科学技术名词审定委员会发布公告,正式将人工智能领域的“token”中文名定为“词元”,即日起面向全社会发布试用。

消息一出,AI圈沸腾了。

“词元”这个词,乍一听有点陌生,但仔细琢磨,还挺有味道。

清华大学计算机系副教授东昱晓给出了专业解读:“词元”这个译名,精准捕捉了token在人工智能语言模型中作为“基本离散符号单元”的本质。其中,“词”点明了它在语言场景下的根源,体现出与表达对象语义的密切关联;“元”则传达出“基本单元”之意,与“元素”等术语中的“元”保持一致的语义脉络。

简单来说,就是我们常说的Token,本质上就是AI处理文本时的“最小单位”。它可能是一个完整的词,也可能是词根、词缀,甚至只是一个字符。AI就是通过对这些“词元”序列的建模,才展现出了令人惊叹的智能水平。

全国计算机科学技术名词审定委员会副主任委员陈熙霖研究员进一步解释,“词元”一词能将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合token在人工智能中的初始角色。

其实,“token”这个词源自古英语tācen,本意就是“符号”或“标记”。但随着大模型从纯文本走向多模态,它的含义也在不断扩展——图像被切分为“图像块”,语音片段被量化编码为离散单元,这些在多模态模型中同样被称为token。

这时,“词元”中的“词”就超越了传统意义上的语言之“词”,而是暗合了术语命名中普遍存在的类比思维——将非文本模态的离散基本单元也视作“广义的词”。就像“词云”“词袋”这些概念一样,虽然源于文本,但如今已成为人工智能领域表达更宽泛语义的通用术语。

为什么偏偏是“词元”,而不是此前流传的“令牌”或“标记”?

答案藏在审定原则里。全国科学技术名词审定委员会表示,“词元”这一定名符合单义性、科学性、简明性、协调性等科技名词审定原则。在中文文献、技术文档及学术交流中,“词元”作为描述大模型中token的译名,逐渐被学术界很多学者认同。

更重要的是,token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;与“嵌入”“注意力”“隐状态”等术语并列时,“词元”保持了风格一致性;同时符合中文“二字词”偏好,表述简洁,易于传播。

从“令牌”到“词元”,看似只是两个字的变化,背后却是中国AI领域术语体系逐步规范化的缩影。

而这种规范化的迫切性,从一组数据中可见一斑。

据国家数据局最新披露,2024年初,中国日均词元调用量仅为1000亿;到2025年底,这个数字已经跃升至100万亿;而就在刚刚过去的三月,日均词元调用量突破140万亿。

两年时间,增长超过千倍。

这个惊人的数字背后,是大模型从“少数人的玩具”变成“多数人的工具”的生动写照。每一次与AI的对话,每一张AI生成的图片,每一段AI创作的文字,背后都是海量“词元”在飞速流转。

如今,这个与我们数字生活息息相关的概念,终于有了规范的中文名。下次再聊AI,不妨试试用“词元”这个词,既专业,又有文化底蕴。

毕竟,语言不仅是交流的工具,更是理解世界的窗口。当“词元”这个词被越来越多人接受和使用,我们对AI的理解,也会更加深入一层。