揭秘AI的文字理解机制

发布时间：2026-04-17 02:25阅读：10

首要之事需澄清：机器无法直接识别字符。

当你键入"苹果"二字时，计算机仅依据编码规则（如Unicode标准）呈现相应符号，却未必知晓其内涵。

要使AI处理文本，首要步骤与图像处理如出一辙：将字符转换为数值。

但怎样把抽象的符号转变为有意义的数字？这正是AI掌握语言的核心所在。

AI处理文本时，并非逐字扫描，而是以Token作为基本单位。

这种Token划分方式，与搜索引擎的分词策略颇有相似之处，都是基于词库对文本进行切分，但具体规则又有所不同。

可将Token视作AI解析文本的最小单元。

举例说明：

Token可能是一个汉字、一个词语，或是词语的组成部分。

主流切分算法如BPE（字节对编码），通过统计文本中的高频组合，将文字拆分为有意义的片段。此法使AI无需记住全部词汇，只需掌握常用片段，即可组合出各式表达。

Token切分完成后，每个Token仅对应一个编号（如"Hello"对应1006）。

但编号本身不具备语义信息，我们必须为每个Token注入"意义"。

这便是词向量（Word Vector）的使命。

词向量可理解为一组有序的数值，每个数值反映词的某方面特征。

例如，假设用四个数值描述一个词：

[皇室, 性别, 年龄, 权力]

观察这些数值，我们可以发现：

当然，实际应用的词向量更为复杂。比如，ChatGPT采用的词向量包含768个维度，每个维度虽无明确标签，但通过海量文本训练，AI能自动习得这些维度所承载的语义特性。

2013年，Google研究团队揭示，词向量能够捕获语言中的逻辑关联。

例如，通过向量计算：

"国王" - "男人" + "女人" ≈ "王后"

此类运算在语义层面成立，因"国王"与"王后"的关系，近似于"男人"与"女人"的关系。

其他类似案例包括：

这些发现表明，AI并未被刻意灌输"性别""首都"等概念，而是通过分析大规模文本，自主挖掘出这些语义关联。

词向量的训练基于一个简单理念：词义可由上下文来界定。例如，在"今日天朗气清，众人前往公园漫步"句中，"公园"常与"漫步""天气"等词共现。经反复训练，AI会调整"公园"对应向量，使其与"花园""户外"等词在向量空间中更邻近，而与"电视""电脑"等词疏远。

此法使AI掌握了词语的"语义距离"：常在相似语境中出现的词，其向量位置更接近。

判断两词语义是否相近，不能单纯比对向量数值大小，而应考察其方向是否契合。

余弦相似度是常用的评估手段，它测算两向量间夹角：夹角愈小，语义愈近。

例如：

词向量技术问世前，搜索引擎仅能执行关键词匹配。例如，检索"苹果手机"，结果可能充斥大量与水果相关页面。而借助词向量，AI能领悟"苹果"在不同语境下的含义：

这种语义解析能力，使搜索引擎、智能助手及ChatGPT能更精准地响应用户需求。

实际词向量通常涵盖数百乃至上千维度。虽人类难以直观想象高维空间，但可理解为：每维代表词的一个属性，维度越多，词义刻画越精细。例如，768维词向量如同为每个词标注768项特征，这些特征共同构成一张精密的"语义图谱"，AI通过测算词间距离来理解其关联。

AI并非真正"理解"文字，而是通过数学计算在语义空间内定位词语。正是此能力，使AI能够应对复杂语言任务，从基础检索到智能对话。

词向量技术为当代AI语言模型（如ChatGPT、Claude等）提供了技术支撑。尽管该技术早在2012年前已存在，但直至深度学习与大数据融合，AI才真正彰显出强大的语言解析能力。