AI如何理解人类语言？揭秘Token的作用

发布时间：2026-05-05 12:07阅读：16

这篇文章用通俗易懂的语言剖析了大型语言模型（LLM）中至关重要的“Token”概念。文章说明了Token是AI处理文本的最小单元，讲解了分词器如何把人类语言变成Token序列，指出了Token数量直接关系到AI的计算成本和价格，还梳理了Llama系列模型分词器的发展历程。

你是否有过这样的体验？读了不少关于大模型（LLM）的文章，却总觉得像雾里看花，看不真切？别焦虑，今天咱们抛开那些晦涩的理论，只谈一个最基础且核心的概念——Token。

一旦弄明白了它，你对 AI 的认知会立刻通透一大截！

坦白讲，直到我完全掌握了“Token”和“分词器”，才觉得自己终于摸到了大模型世界的门道。这或许是整个 AI 领域中，为数不多的那种一旦理解就刻骨铭心的概念。

别看它看似“入门”，所有大模型（无论是 GPT-4 还是文心一言）的思考、学习、付费（是的，就是按 Token 计费），都是建立在这个基础之上的。

准备好了吗？让我们一同揭开 Token 的神秘面纱。

简而言之，Token 就是 AI 处理文本时的最小单元。

试想一下，AI 就像是一个不懂中文或英文，只认得“积木块”的孩子。我们说出的一句话，在它看来就是一长串字符。它要做的首要任务，就是把这句话拆解，变成一个个它能识别的“积木块”。这个“积木块”，就是 Token。

一个 Token 可以是：

为何拆分规则如此灵活？因为不同语言的习惯各异。例如英语单词间有空格，天然就能分开。但中文一句话从头到尾都没有空格，AI 就得用更巧妙的手段来切分。这个“敲碎”和“切分”的流程，就叫做Tokenization。

通常情况下，Token 和我们字数的换算关系如下：

因此，当我们把一句话输入给 AI 时，它会先将其分解成一组 Tokens，然后再进行理解和运算。

这些 Tokens 是如何从一句话中生成的呢？这就要依赖一个勤勤恳恳的“翻译官”——分词器（Tokenizer）。

分词器的职责就是把人类的语言，转换成 AI 能读懂的 Token 序列。它有几种主流的“翻译”方式：

举个例子，对于 “Hello, I'm an AI assistant.” 这句话，分词器可能会将其转化为：['Hello', ',', ' I', "'m", ' an', ' AI', ' assistant', '.']每一个小片段就是一个 Token，AI 正是依靠这些小片段来领会整句话的含义。

我们前面提到，中文缺乏空格，这给分词器带来了特殊的挑战。它如何判断“长沙市长”应该读作“长沙 / 市长”而非“长 / 沙市 / 长”呢？

主流的 AI 模型主要利用“子词级分词”来应对这个问题，即我们上文提到的 BPE 那种“拼图”逻辑。它既能识别出像“长沙”、“欢迎”这类常用词，也能灵活地把生僻词拆解成单个字，例如“我爱长沙”可能会被拆成[我, 爱, 长, 沙]。

这种方法的优点在于，它在“词汇量不足”和“拆分过细导致理解困难”之间找到了一个绝佳的平衡点，是当前处理中文最高效的方案。

除了表示字词的普通 Token，还存在一些特殊的 Token，它们不代表任何实际含义，而是如同交通标志一般，给 AI 下达指令。

常见的有如下几种：

这些特殊 Token 就像 AI 的“路标”和“语法规则”，协助它更好地解析我们句子的结构。

你或许会想，不就是把句子拆成小块嘛，多几个少几个有何影响？影响大着呢！因为 AI 的运算成本和我们支付的费用，都与 Token 数量直接相关。

你可以把 AI 的思考过程类比为出租车计费：

你问“今天天气怎么样？”，可能仅消耗 10 个 Tokens。但如果你丢给它一篇长篇报告让其总结，可能瞬间就耗费几千个 Tokens。这就是为何许多 AI 服务按 Token 数量收费，因为这直接体现了它为你付出的“脑力劳动”。

为何按 Token 计费，而非按字数或次数？

光讲理论略显枯燥，我们来瞧瞧一个具体的明星模型——Meta 公司（原 Facebook）开发的 Llama 系列，看看它的分词器是如何逐步升级的。

1. Llama 2：BPE + SentencePiece

Llama 2 的分词器采用了我们前文提到的 BPE“拼图”算法，并且是基于 SentencePiece 这个强大的工具包构建的。其“词典”容量为 32,000 个 Tokens。你可以将其想象成一个掌握了 3 万个核心词汇和词块的“人”。

2. Llama 3：更大的“词典”和更强的工具

Llama 3 进行了重大升级！其“词典”直接从 32,000 扩展到了128,256个！这意味着它识别的词块更多、更精细，能更精准地理解和表达我们的意图，整体表现也因此变得更强劲。

同时，它将工具包从 SentencePiece 替换成了 OpenAI 开发的Tiktoken。这可是 GPT-4 同款的分词工具，对多种语言的处理效率和效果都更优。

3. Llama 4 猜想

尽管 Llama 4 尚未正式发布，但我们可以合理推测，其分词器将继续在“更大、更快、更强”的道路上飞驰，例如拥有更庞大的词典、对中文等语言的支持更完善。

好了，关于 Token 的探索之旅就到此为止。现在我们可以做个总结：

从最初的简单分词，到如今 Llama 3 使用的拥有超过 12 万词汇的 Tiktoken，分词技术一直在演进。它就像大模型背后那个不起眼却至关重要的“引擎”，不仅影响效率，更从根本上决定了 AI 的“智商”和“情商”。

下次当你与 AI 对话时，不妨思考一下，你输入的每个字、每个词，都在经历着这样一场被“敲碎”和“重组”的奇妙旅程。

← 上一篇：AI 代币落幕：USDC 成为真正赢家下一篇：数智时代，文科大有可为 →