标签

AI 的「词元」:Token 如何影响模型处理文本?

发布时间:2026-04-02 21:44来源:微信阅读:5

Token,直译为「词元」或「令牌」,是大语言模型(LLM)处理文本的基本单位。

你输入的文字,在进入模型之前,会先经过一个叫做Tokenizer(分词器)的程序,把文本切碎成一个个 Token。这些 Token 再被转换为数字 ID,模型才能「读懂」它们。

一个 Token ≠ 一个字。Token 可以是:

目前主流的分词算法有三种:

最常见的方法,被 GPT 系列、LLaMA、Mistral 等广泛使用。

核心思想:从单个字节出发,反复合并出现频率最高的相邻字节对,直到达到预设词表大小。

举例:

Google BERT 系列使用。与 BPE 类似,但合并标准是「最大化语言模型似然」,而非纯粹频率。

对中文的处理:mBERT 会将中文字符逐字切分,"你好"→["你", "好"],基本保持 1 字 = 1 token。

Google T5、mT5 使用,也被 LLaMA、BLOOM 等采用。

最大特点:不依赖语言的空格分词习惯,把原始文本当作字节流处理,天然支持中日韩等语言,无需预处理。

我们拿这句话做实验:

「人工智能正在改变世界」

结论:国产大模型(Qwen、DeepSeek)和经过优化的新版国际模型(GPT-4、LLaMA 3)对中文都相当友好,而早期 GPT-3 对中文极不友好——同样的内容要消耗多 2-3 倍的 token。

用句子"The quick brown fox jumps over the lazy dog"来测试:

英文差距不大,主要是常见单词基本都在词表里,直接 1 词 1 token。

所有大模型的 API 计费都以 Token 为单位。

关键洞察:如果你的业务场景大量涉及中文,使用中文友好的模型(Qwen、DeepSeek)不仅价格低,而且 token 效率更高,双重节省!

所谓「上下文长度」,本质上就是模型一次能处理多少个 Token。

200K tokens ≈ 约 15 万汉字 ≈ 一部长篇小说。

Token 越多,模型计算的注意力(Attention)矩阵越大,计算量以平方级增长。这也是为什么长上下文模型推理慢、成本高的根本原因。

你可以亲自去 OpenAI 的Tokenizer 工具[1]数数看。

下面是几个有趣的例子(GPT-5 分词器):

中文处理是大模型 tokenizer 设计中的一大挑战。

早期 GPT-3 的 tokenizer 词表主要基于英文语料训练。中文汉字不在词表里,就会被拆成 UTF-8 字节来表示。一个中文字符在 UTF-8 编码下占3 个字节,因此变成 3 个 token。

对比:

这意味着:同样的中文内容,在 GPT-3 上的 token 成本是 Qwen 的2 倍。

以 Qwen(通义千问)为例,阿里在训练 tokenizer 时专门加入了大量中文语料,词表中收录了常见汉字和常用词组,实现了接近 1:1 的字-token 比例。

DeepSeek 同样如此,其 tokenizer 词表约 100K,中文字符基本都有专属 token。

AI 在发展,token的计算也在不断优化,本文提到的token数仅供参考!

Token 是 AI 语言模型的「DNA」——一切理解与生成,都从这个最小单位开始。

[1]Tokenizer 工具:https://platform.openai.com/tokenizer