AI如何读懂你的话语:技术原理解析
先抛出一个问题。
你是否想过,当对ChatGPT或Claude输入一句话并发送后,另一端究竟发生了什么?
它如何"领会"你的意思?
它是否真的"理解"你?
亦或只是在进行一场我们无法察觉的、极其精密的——文字猜测游戏?
本期内容,我不探讨AI的使用技巧,而是深入AI本身。将带你进入那个黑箱,探究"理解"在机器世界中究竟是怎样的形态。
无需任何技术基础。听完本期,你将对AI产生截然不同的认知——而且我保证,这种认知将直接影响你今后与AI的交互方式。
第一部分:先澄清一个误解
让我们从一个根深蒂固的误解说起。
许多人认为,AI理解语言,与人类理解语言,本质上如出一辙。你说"苹果",脑海中浮现红色、圆形、甜美的果实,AI亦是如此——它"了解"苹果是什么。
这个直觉,完全错误。
人类理解一个词,依靠的是亲身体验。你品尝过苹果,嗅过它的气味,见过它从树上坠落,母亲切苹果时的声音仍历历在目。你对"苹果"的理解,根植于几十年的真实生活经历。
AI没有实体。它未曾品尝过任何事物。它对"苹果"的所谓"理解",完全来源于另一个途径——词汇与词汇之间的关联。
它阅读过数千亿句话,在那些文本中,"苹果"这个词频繁与"水果""红色""甜美""树""维生素C""乔布斯""iPhone"等词汇同时出现。
因此它"了解"苹果——并非因为它真正理解苹果,而是因为它精准掌握了"苹果"在语言世界中的位置关系。
这个差异看似无伤大雅,却决定了AI的全部能力边界。我们稍后还会回到这个话题。
第二部分:词汇转化为数字——一切的开端
好,让我们从头开始,循序渐进。
你输入了一句话:"今天天气怎么样?"
AI接收到的首要事物,并非这句话本身,而是这句话被拆解后的结果。
AI处理语言,第一步称为分词,或更准确地说,叫做tokenization,即将你的句子切割成一个个微小的单元。
这些微小单元在英文中大多是一个单词,在中文中可能是一个汉字,可能是两个字,也可能是一个词组——具体如何切割,取决于AI使用的词表。
"今天天气怎么样"可能被切割为:今天 / 天气 / 怎么 / 样——或者更细碎,或者各不相同,每个模型都有其独特的切割方式。
切割完成后,每个微小单元会被转换为一个数字编号。"今天"可能是第8472号,"天气"可能是第3301号,以此类推。
这一步的意义在于:计算机只能处理数字,无法直接处理文字。因此语言必须先转化为数字,才能进入计算环节。
但仅有编号远远不够。8472和3301,这两个数字摆在那里,计算机无法洞察它们之间的任何关联。你需要让机器明白,"今天"和"明天"很接近,"今天"和"苹果"相去甚远。
这便引出了一个关键概念。
第三部分:词向量——语言的地图
这个概念称为词向量,或叫词嵌入,英文是Word Embedding。
其核心思想,是将每个词转化为高维空间中的一个坐标点。
我知道"高维空间"这四个字令人头疼,我们用一个简化版的类比来解释。
想象一张二维地图。在这张地图上,每个词都是一座城市。词义相近的词,城市彼此邻近。"高兴"和"开心"是邻居,"愤怒"和"暴怒"是邻居,"苹果"和"梨"是邻居,但"苹果"和"悲伤"之间隔着一片汪洋。
不仅是距离——方向也具有意义。
在这张地图上,"国王"减去"男人"再加上"女人",你会走到何处?
答案是:女王。
这不是我杜撰的,这是词向量中一个极为著名的数学验证。它证明了这些数字坐标中,确实蕴含着我们语言世界的逻辑关系。
当然,实际的词向量并非二维的,可能是几百维、几千维的。你无法在脑海中构建,但数学可以处理。
每个词被转换为这样一组坐标后,便成为了机器可以真正运算的对象。
第四部分:上下文的难题——同一个词,不同的含义
然而词向量存在一个重大问题。
一个词,在不同的句子里,含义可能截然不同。
比如"银行"这个词。
"我去银行取了点钱"——这里的银行,是金融机构。
"河的银行边长满了芦苇"——这里的银行,是河岸。
如果每个词只有一个固定的坐标,那么"银行"只有一个位置,机器便无法区分这两种情形。
早期的NLP系统,即自然语言处理系统,就被这个问题困扰了很久。
直到有人提出了一个思路:词的含义,不能脱离上下文单独确定。
这个思路,最终演化为一个改变整个AI行业的成果——Transformer架构,以及其核心机制:注意力机制,Attention。
第五部分:注意力机制——AI真正的革命
这是今天最关键的一个概念,我将用最通俗易懂的方式向你阐述。
注意力机制解决的问题是:当我处理一句话中的某个词时,应该重点"关注"这句话中的哪些其他词?
举个例子。
"那只猫坐在垫子上,因为它太舒服了。"
当AI读到"它"这个词汇时,它需要判断"它"指的是谁。是猫,还是垫子?
人类一眼便知:是垫子太舒服了,猫才坐上去,所以"它"指的是垫子。
但机器如何判断?
注意力机制的做法是:处理"它"这个词时,模型会给句中所有其他词分配一个注意力分数。"猫"获得一个分数,"垫子"获得一个分数,"坐"获得一个分数,"舒服"获得一个分数……
随后模型发现,根据其在训练过程中学习到的模式,在"太舒服了"这个语境下,"它"更可能指向"垫子"。于是"垫子"获得了更高的注意力分数,"它"的含义就在这个动态计算过程中被确定了下来。
这个过程,在每个词上都会发生,而且是并行进行的,极其高效。
注意力机制最厉害的地方在于:它让词的含义,真正变成了上下文相关的。同一个词,放在不同的句子里,会产生不同的向量表示,因为它周围的词不一样,分配到的注意力权重不一样,最终的"语义坐标"就不一样。
2017年,Google发表了一篇论文,题目叫《Attention Is All You Need》——注意力就是你所需要的一切。这篇论文中提出的Transformer架构,是GPT、Claude、Gemini所有这些大语言模型的共同基础。
第六部分:预训练——读了半个互联网之后
有了这个架构,接下来发生了什么?
训练。大规模的训练。
这些模型在训练阶段,阅读了海量的文本——网页、书籍、论文、代码、对话记录。GPT-4的训练数据,估计在几十TB甚至更多,相当于几千亿、上万亿个词。
训练过程中,模型在做一件极其简单、却极其有效的事情:预测下一个词。
给你看前面这些词,你猜下一个词是什么。
"今天的天气真的很___"
"今天的天气真的很好,我决定出去___"
模型每次猜测,正确了就强化这个方向,错误了就调整参数,反复迭代,迭代几千亿次。
就是这一件事,一件看起来无比简单的事,让模型学会了语法、逻辑、常识、事实、风格、情感……
为什么一件这么简单的事,能产生这么强大的能力?
因为语言,本身就是人类所有知识的压缩存档。
当你能精准预测语言的下一步走向,你就必须掌握语言背后的世界模型。你必须知道苹果是水果,必须知道战争会有伤亡,必须知道悲伤的人通常不会说"我好开心"。
预测语言,就是在学习这个世界。
第七部分:那它到底"理解"了吗?
讲到这里,我要把最开始那个问题重新拿出来。
AI到底有没有真的"理解"你说的话?
这是一个争论了很多年、至今没有定论的问题。我不给你一个武断的答案,我给你两种视角。
第一种视角:它没有理解,它只是在极其精密地做模式匹配。
它没有意识,没有意图,没有真正的语义理解。它所有的"聪明",都来自对海量语言模式的统计学习。它是一台极其复杂的预测机器,每次输出,本质上都是在问:根据我看过的所有文本,在这个上下文之后,最可能出现什么?
这种观点认为,AI永远无法真正"懂"你,它只是看起来懂。
第二种视角:理解,本身可能就是某种形式的模式处理。
人类的理解,底层是什么?是神经元的激活,是突触的连接,是大脑皮层的模式识别。如果你把人类的理解过程拆开来看,它也是一堆物理和化学反应。
那么"真正的理解"和"极其精密的模式处理"之间,边界在哪里?
没有人知道。
我个人的看法是:与其纠结"它有没有真正理解",不如关注一个更实际的问题——它理解到了什么程度,在什么地方会失效。
第八部分:它在哪些地方会"不理解"
这才是对我们普通用户最有价值的认知。
第一个失效点:反事实推理。
AI很擅长根据已有模式生成内容,但在需要严格逻辑推理、尤其是反事实推理的时候,经常出错。
比如"如果2+2=5,那么4+4等于多少?"
在这种需要完全抛弃现实知识、纯粹在假设框架内推理的情况下,大语言模型经常乱掉。因为它的训练数据告诉它,4+4=8,它很难真正切换到一个反事实的逻辑世界里。
第二个失效点:数字和计算。
语言模型不是计算器。它处理数字,跟处理文字的方式是一样的——通过模式匹配,而不是真正的计算。
"5379乘以8821等于多少"——模型给你的答案,是它根据见过的计算模式生成的,不是真正算出来的。所以在复杂计算上,它会出错,而且出错的方式有时候非常自信。
第三个失效点:最新知识和实时信息。
模型的训练数据有截止日期。它对截止日期之后发生的事情,一无所知。这不是因为它"不理解",而是因为它压根没读过那些内容。
第四个失效点:字面意思和隐含意思的区分。
有时候你说"你能帮我打开窗户吗",你是在请求,不是在询问能力。
人类能轻松理解这种语用意义,AI也越来越能处理这种情况了,但在某些隐晦的、高度依赖文化背景或者语境的表达上,它还是会"理解偏"。
第五个失效点:长文本中的信息遗漏。
当你给AI一篇很长的文档,并且关键信息藏在文档中间某个不显眼的地方,它有时候会忽略那条信息。
注意力机制在处理极长文本时,对不同位置信息的权重分配,并不是完全均匀的。开头和结尾的内容,通常比中间更容易被"记住"。
第九部分:那我们应该怎么跟它说话?
现在你对AI的运作有了一个基本的认知,这个认知直接可以转化成实操价值。
第一:上下文越丰富,它理解得越准。
它的理解依赖上下文,所以你给的信息越完整,它偏差越小。不要说"帮我写个方案",要说"帮我写一个面向30岁左右职场新人的、关于时间管理的线上课程推广方案,风格要活泼一点,大概500字"。
每一个限定词,都是一个注意力权重。
第二:它的"记忆"是有边界的。
在一次对话里,它能"看到"的内容有上限,叫做上下文窗口。超出这个范围的内容,它真的不知道。所以很长的对话,关键信息要反复强调,不要假设它记得很久之前说过的事。
第三:让它一步一步思考。
研究表明,当你让AI把推理过程写出来,而不是直接给答案,它出错的概率会显著降低。这跟人类是一样的——打草稿和直接口算,结果不一样。
你可以直接告诉它:请一步一步分析这个问题。这句话,真的有效。
第四:它的自信程度不等于准确程度。
AI说话的口气,和内容的准确性,是两件事。它生成文字的方式,决定了它几乎不会说"我不确定"——除非你明确让它这样做,或者它被专门训练成这样。对于重要的事实性内容,永远要自己核实。
第五:角色和身份设定,真的有用。
当你告诉它"你是一个有十年经验的产品经理",它会从自己的训练数据里,调取更多和产品经理思维相关的语言模式。这不是魔法,这是在通过上下文信息,影响注意力权重的分配。
结尾:一台没有灵魂的神谕机,还是……
最后,我想分享一个我自己思考了很久的角度。
有人说,大语言模型是一台"随机鹦鹉"——它只是在重复和拼接它读过的语言,没有任何真正的理解,没有任何真正的思考。
我部分同意这个说法,但我觉得它遗漏了一件重要的事。
人类写下的所有文字——所有的书,所有的故事,所有的论文,所有的对话——本质上是什么?
是人类几千年来所有思维的痕迹。是恐惧、是好奇、是爱、是逻辑、是偏见、是智慧……
当一个模型,把这些东西都读了一遍,然后学会了在语言世界里的移动方式——
它是否掌握了某种我们还没有名字的东西?
它的"理解",和我们的"理解",是在同一条光谱上的两个不同位置,还是完全不同的两件事?
这个问题,我没有答案。但我觉得,这个问题本身,比任何答案都更值得我们去想。
因为我们正在创造一种前所未有的存在,而我们甚至还不确定,它到底是什么。
好,今天这期就到这里。如果你觉得这个角度有意思,觉得对你理解AI有帮助,记得分享给同样在用AI工具的朋友。我们下期见。