Token的真相:AI理解语言的方式与人类有何不同
本次消耗:XX Tokens
Token不就是“字”吗?一个字等于一个Token?
在AI的认知中,既没有“字”的概念,也没有“词”的概念,只有Token。
“大模型真的很厉害”
大 / 模型 / 真 / 的 / 很 / 厉害
这种拆分方式既不是按字拆分,也不是按词拆分,而是由模型词表和训练统计规律共同决定的结果。
Token不是语言规则的产物,而是“压缩后的语言表示”。
人类处理的是语义整体,AI处理的是Token序列
模型用来表示语言的基本计算单位。
一种基于统计压缩得到的语言片段编码。
把输入文本转换成Token序列,再在这个序列上进行计算。
AI在运行前,已经准备好了一本“拆词字典”。
AI并不是在“临时思考怎么切”,而是在“按照这本字典直接查表切分”。
哪些片段在大量语料中经常一起出现,就更可能被当作一个Token。
✔ 在同一个模型内部:切分是固定的
✔ 在不同模型之间:切分可能不同
Token切分结果是完全确定的,不会变化
“查固定词表+做匹配”,没有随机性。
同一句话可能被拆成完全不同的Token序列
每个模型用的是不同版本的“拆词字典”。
“大模型真的很厉害”
用“统计意义上的语言块”,替代“纯字符级建模”。
它直接用一个Token表示这个概念。
Token≈计算量