揭秘AI的文字理解机制
首要之事需澄清:机器无法直接识别字符。
当你键入"苹果"二字时,计算机仅依据编码规则(如Unicode标准)呈现相应符号,却未必知晓其内涵。
要使AI处理文本,首要步骤与图像处理如出一辙:将字符转换为数值。
但怎样把抽象的符号转变为有意义的数字?这正是AI掌握语言的核心所在。
AI处理文本时,并非逐字扫描,而是以Token作为基本单位。
这种Token划分方式,与搜索引擎的分词策略颇有相似之处,都是基于词库对文本进行切分,但具体规则又有所不同。
可将Token视作AI解析文本的最小单元。
举例说明:
Token可能是一个汉字、一个词语,或是词语的组成部分。
主流切分算法如BPE(字节对编码),通过统计文本中的高频组合,将文字拆分为有意义的片段。此法使AI无需记住全部词汇,只需掌握常用片段,即可组合出各式表达。
Token切分完成后,每个Token仅对应一个编号(如"Hello"对应1006)。
但编号本身不具备语义信息,我们必须为每个Token注入"意义"。
这便是词向量(Word Vector)的使命。
词向量可理解为一组有序的数值,每个数值反映词的某方面特征。
例如,假设用四个数值描述一个词:
[皇室, 性别, 年龄, 权力]
观察这些数值,我们可以发现:
当然,实际应用的词向量更为复杂。比如,ChatGPT采用的词向量包含768个维度,每个维度虽无明确标签,但通过海量文本训练,AI能自动习得这些维度所承载的语义特性。
2013年,Google研究团队揭示,词向量能够捕获语言中的逻辑关联。
例如,通过向量计算:
"国王" - "男人" + "女人" ≈ "王后"
此类运算在语义层面成立,因"国王"与"王后"的关系,近似于"男人"与"女人"的关系。
其他类似案例包括:
这些发现表明,AI并未被刻意灌输"性别""首都"等概念,而是通过分析大规模文本,自主挖掘出这些语义关联。
词向量的训练基于一个简单理念:词义可由上下文来界定。例如,在"今日天朗气清,众人前往公园漫步"句中,"公园"常与"漫步""天气"等词共现。经反复训练,AI会调整"公园"对应向量,使其与"花园""户外"等词在向量空间中更邻近,而与"电视""电脑"等词疏远。
此法使AI掌握了词语的"语义距离":常在相似语境中出现的词,其向量位置更接近。
判断两词语义是否相近,不能单纯比对向量数值大小,而应考察其方向是否契合。
余弦相似度是常用的评估手段,它测算两向量间夹角:夹角愈小,语义愈近。
例如:
词向量技术问世前,搜索引擎仅能执行关键词匹配。例如,检索"苹果手机",结果可能充斥大量与水果相关页面。而借助词向量,AI能领悟"苹果"在不同语境下的含义:
这种语义解析能力,使搜索引擎、智能助手及ChatGPT能更精准地响应用户需求。
实际词向量通常涵盖数百乃至上千维度。虽人类难以直观想象高维空间,但可理解为:每维代表词的一个属性,维度越多,词义刻画越精细。例如,768维词向量如同为每个词标注768项特征,这些特征共同构成一张精密的"语义图谱",AI通过测算词间距离来理解其关联。
AI并非真正"理解"文字,而是通过数学计算在语义空间内定位词语。正是此能力,使AI能够应对复杂语言任务,从基础检索到智能对话。
词向量技术为当代AI语言模型(如ChatGPT、Claude等)提供了技术支撑。尽管该技术早在2012年前已存在,但直至深度学习与大数据融合,AI才真正彰显出强大的语言解析能力。