AI 的「词元」：Token 如何影响模型处理文本？

发布时间：2026-04-02 21:44阅读：10

Token，直译为「词元」或「令牌」，是大语言模型（LLM）处理文本的基本单位。

你输入的文字，在进入模型之前，会先经过一个叫做Tokenizer（分词器）的程序，把文本切碎成一个个 Token。这些 Token 再被转换为数字 ID，模型才能「读懂」它们。

一个 Token ≠ 一个字。Token 可以是：

目前主流的分词算法有三种：

最常见的方法，被 GPT 系列、LLaMA、Mistral 等广泛使用。

核心思想：从单个字节出发，反复合并出现频率最高的相邻字节对，直到达到预设词表大小。

举例：

Google BERT 系列使用。与 BPE 类似，但合并标准是「最大化语言模型似然」，而非纯粹频率。

对中文的处理：mBERT 会将中文字符逐字切分，"你好"→["你", "好"]，基本保持 1 字 = 1 token。

Google T5、mT5 使用，也被 LLaMA、BLOOM 等采用。

最大特点：不依赖语言的空格分词习惯，把原始文本当作字节流处理，天然支持中日韩等语言，无需预处理。

我们拿这句话做实验：

「人工智能正在改变世界」

结论：国产大模型（Qwen、DeepSeek）和经过优化的新版国际模型（GPT-4、LLaMA 3）对中文都相当友好，而早期 GPT-3 对中文极不友好——同样的内容要消耗多 2-3 倍的 token。

用句子"The quick brown fox jumps over the lazy dog"来测试：

英文差距不大，主要是常见单词基本都在词表里，直接 1 词 1 token。

所有大模型的 API 计费都以 Token 为单位。

关键洞察：如果你的业务场景大量涉及中文，使用中文友好的模型（Qwen、DeepSeek）不仅价格低，而且 token 效率更高，双重节省！

所谓「上下文长度」，本质上就是模型一次能处理多少个 Token。

200K tokens ≈ 约 15 万汉字 ≈ 一部长篇小说。

Token 越多，模型计算的注意力（Attention）矩阵越大，计算量以平方级增长。这也是为什么长上下文模型推理慢、成本高的根本原因。

你可以亲自去 OpenAI 的Tokenizer 工具[1]数数看。

下面是几个有趣的例子（GPT-5 分词器）：

中文处理是大模型 tokenizer 设计中的一大挑战。

早期 GPT-3 的 tokenizer 词表主要基于英文语料训练。中文汉字不在词表里，就会被拆成 UTF-8 字节来表示。一个中文字符在 UTF-8 编码下占3 个字节，因此变成 3 个 token。

对比：

这意味着：同样的中文内容，在 GPT-3 上的 token 成本是 Qwen 的2 倍。

以 Qwen（通义千问）为例，阿里在训练 tokenizer 时专门加入了大量中文语料，词表中收录了常见汉字和常用词组，实现了接近 1:1 的字-token 比例。

DeepSeek 同样如此，其 tokenizer 词表约 100K，中文字符基本都有专属 token。

AI 在发展，token的计算也在不断优化，本文提到的token数仅供参考！

Token 是 AI 语言模型的「DNA」——一切理解与生成，都从这个最小单位开始。

[1]Tokenizer 工具:https://platform.openai.com/tokenizer