AI如何理解人类语言?揭秘Token的作用
这篇文章用通俗易懂的语言剖析了大型语言模型(LLM)中至关重要的“Token”概念。文章说明了Token是AI处理文本的最小单元,讲解了分词器如何把人类语言变成Token序列,指出了Token数量直接关系到AI的计算成本和价格,还梳理了Llama系列模型分词器的发展历程。
你是否有过这样的体验?读了不少关于大模型(LLM)的文章,却总觉得像雾里看花,看不真切?别焦虑,今天咱们抛开那些晦涩的理论,只谈一个最基础且核心的概念——Token。
一旦弄明白了它,你对 AI 的认知会立刻通透一大截!
坦白讲,直到我完全掌握了“Token”和“分词器”,才觉得自己终于摸到了大模型世界的门道。这或许是整个 AI 领域中,为数不多的那种一旦理解就刻骨铭心的概念。
别看它看似“入门”,所有大模型(无论是 GPT-4 还是文心一言)的思考、学习、付费(是的,就是按 Token 计费),都是建立在这个基础之上的。
准备好了吗?让我们一同揭开 Token 的神秘面纱。
简而言之,Token 就是 AI 处理文本时的最小单元。
试想一下,AI 就像是一个不懂中文或英文,只认得“积木块”的孩子。我们说出的一句话,在它看来就是一长串字符。它要做的首要任务,就是把这句话拆解,变成一个个它能识别的“积木块”。这个“积木块”,就是 Token。
一个 Token 可以是:
为何拆分规则如此灵活?因为不同语言的习惯各异。例如英语单词间有空格,天然就能分开。但中文一句话从头到尾都没有空格,AI 就得用更巧妙的手段来切分。这个“敲碎”和“切分”的流程,就叫做Tokenization。
通常情况下,Token 和我们字数的换算关系如下:
因此,当我们把一句话输入给 AI 时,它会先将其分解成一组 Tokens,然后再进行理解和运算。
这些 Tokens 是如何从一句话中生成的呢?这就要依赖一个勤勤恳恳的“翻译官”——分词器(Tokenizer)。
分词器的职责就是把人类的语言,转换成 AI 能读懂的 Token 序列。它有几种主流的“翻译”方式:
举个例子,对于 “Hello, I'm an AI assistant.” 这句话,分词器可能会将其转化为:['Hello', ',', ' I', "'m", ' an', ' AI', ' assistant', '.']每一个小片段就是一个 Token,AI 正是依靠这些小片段来领会整句话的含义。
我们前面提到,中文缺乏空格,这给分词器带来了特殊的挑战。它如何判断“长沙市长”应该读作“长沙 / 市长”而非“长 / 沙市 / 长”呢?
主流的 AI 模型主要利用“子词级分词”来应对这个问题,即我们上文提到的 BPE 那种“拼图”逻辑。它既能识别出像“长沙”、“欢迎”这类常用词,也能灵活地把生僻词拆解成单个字,例如“我爱长沙”可能会被拆成[我, 爱, 长, 沙]。
这种方法的优点在于,它在“词汇量不足”和“拆分过细导致理解困难”之间找到了一个绝佳的平衡点,是当前处理中文最高效的方案。
除了表示字词的普通 Token,还存在一些特殊的 Token,它们不代表任何实际含义,而是如同交通标志一般,给 AI 下达指令。
常见的有如下几种:
这些特殊 Token 就像 AI 的“路标”和“语法规则”,协助它更好地解析我们句子的结构。
你或许会想,不就是把句子拆成小块嘛,多几个少几个有何影响?影响大着呢!因为 AI 的运算成本和我们支付的费用,都与 Token 数量直接相关。
你可以把 AI 的思考过程类比为出租车计费:
你问“今天天气怎么样?”,可能仅消耗 10 个 Tokens。但如果你丢给它一篇长篇报告让其总结,可能瞬间就耗费几千个 Tokens。这就是为何许多 AI 服务按 Token 数量收费,因为这直接体现了它为你付出的“脑力劳动”。
为何按 Token 计费,而非按字数或次数?
光讲理论略显枯燥,我们来瞧瞧一个具体的明星模型——Meta 公司(原 Facebook)开发的 Llama 系列,看看它的分词器是如何逐步升级的。
1. Llama 2:BPE + SentencePiece
Llama 2 的分词器采用了我们前文提到的 BPE“拼图”算法,并且是基于 SentencePiece 这个强大的工具包构建的。其“词典”容量为 32,000 个 Tokens。你可以将其想象成一个掌握了 3 万个核心词汇和词块的“人”。
2. Llama 3:更大的“词典”和更强的工具
Llama 3 进行了重大升级!其“词典”直接从 32,000 扩展到了128,256个!这意味着它识别的词块更多、更精细,能更精准地理解和表达我们的意图,整体表现也因此变得更强劲。
同时,它将工具包从 SentencePiece 替换成了 OpenAI 开发的Tiktoken。这可是 GPT-4 同款的分词工具,对多种语言的处理效率和效果都更优。
3. Llama 4 猜想
尽管 Llama 4 尚未正式发布,但我们可以合理推测,其分词器将继续在“更大、更快、更强”的道路上飞驰,例如拥有更庞大的词典、对中文等语言的支持更完善。
好了,关于 Token 的探索之旅就到此为止。现在我们可以做个总结:
从最初的简单分词,到如今 Llama 3 使用的拥有超过 12 万词汇的 Tiktoken,分词技术一直在演进。它就像大模型背后那个不起眼却至关重要的“引擎”,不仅影响效率,更从根本上决定了 AI 的“智商”和“情商”。
下次当你与 AI 对话时,不妨思考一下,你输入的每个字、每个词,都在经历着这样一场被“敲碎”和“重组”的奇妙旅程。