标签

AI眼中世界:文字皆为积木拼图

发布时间:2026-05-12 00:05来源:微信阅读:7

实际上,AI并不识字,它只识别"词元",即处理信息的"基础积木",这些积木组合起来才构成完整内容。

人类阅读文字时,理解的是整体含义,例如"饺子怎么包";而AI并非直接理解,而是将其"分解",切割成小单元,"饺子""怎么""包",每个单元就是一个词元。AI通过处理这些词元序列来理解并生成语言。

词元可以是完整词汇,如"AI""饺子";也可能是不完整词汇,如"词元"可能被分割为"词"和"元";甚至可能是一个字符或标点,如"哦" "!"。只要AI可识别的基础单元,都称为词元。

有人会问,为何称为"词元"?这并非随意命名,而是专家们正式审定的结果!全国计算机科学技术名词审定委员会将token命名为"词元"。"词"表示其语言起源,"元"表示最小单元,与"元素""单元"中的"元"含义相同,既好记又科学。

词元不仅限于文字领域。当前的多模态AI能处理图像、语音等。图片被分割的小图块、语音被切分的小片段,本质上都是词元!

你发出的每条信息、每个指令,都会被AI拆分为词元,再重新组合为回复。这便是AI理解世界的底层机制,现在你明白了吗?

策划:柴如瑾

文案制作:贺晨曦

学术支持:刘金婷、张晖(全国科学技术名词审定委员会副研究员、研究员)