标签

AI真的懂人话吗?

发布时间:2026-06-23 23:21阅读:2

你以为模型在 "读汉字",其实它先做了一道 "切分题"。

模型会把输入的句子切成一个个最小处理单位,叫做token。一个 token 可能是一个字,可能是一个词,也可能只是词的一部分。

比如 "地铁站" 可能是一个 token,也可能被切成 "地铁"+"站",取决于模型的分词规则。

切完之后,每个 token 会被转换成一个数字编号。但编号本身没有意义。

就像身份证号 141121xxxxxxxxxxxx,你能看出这个人是内向还是外向吗?看不出。

token ID 也一样,它只是个索引,不能告诉模型 "地铁站" 是什么意思,更不知道它和 "公交站" 有什么关系。

第二步:真正承载语义的,是向量

那语义藏在哪里?

藏在向量里。

你可以把向量想象成一组坐标 —— 不是二维、三维,而是成百上千维的高维坐标。每个 token 都有自己的向量,在这个高维语义空间里占据一个位置。

位置接近的,含义通常也接近。

比如 "地铁站"" 公交站 ""机场" 这三个词,经常出现在 "出行"" 路线 ""多久到达" 这类上下文里,它们的向量位置就会靠得比较近;而 "报表"" 预算 ""审批" 这些词,则会聚集在办公、财务那一片区域。

这些关系不是工程师手写的,也不是模型查字典查来的 —— 是 "统计" 出来的。

哪些词总一起出现?哪些词能填进同一句子的空格里?哪些词能帮你猜到下一个词是什么?模型在海量文本里反复做这些题,慢慢就把每个词 "摆" 到了合适的位置上。

训练刚开始的时候,向量基本是随机的。模型不断地做预测 —— 比如看着前面的字,猜下一个字是什么。猜错了就根据误差往回调整,一点点修正内部参数。练得多了,含义相近的词自然就凑到了一起。

光有静态向量还不够。

想想看:"苹果发布了新品" 和 "我买了一个苹果"—— 这两个 "苹果" 是一回事吗?

显然不是。一个是科技公司,一个是水果。如果每个词只有一个固定的向量,模型就分不清这种差别。

所以现代大模型用了Transformer和注意力机制,让每个 token 的向量变成 "动态" 的。

注意力机制是干什么的?简单说就是:让每个词看看上下文,决定自己此刻该是什么意思。

看到 "发布"" 新品 "," 苹果 "就往公司那边靠;看到" 买了 ""吃",就往水果那边靠。模型不是孤立地理解一个词,而是结合整句话的语境,重新计算出一个 "此时此刻的我"。

这就是为什么大模型能处理歧义 —— 它看的不是词,是词和语境的关系。

理解了输入之后,模型又是怎么生成一句话的呢?

过程其实很 "笨"——一个字一个字地猜。

这些原始分数叫logits。经过一个叫softmax的函数处理后,分数会变成概率分布 —— 意思就是:接下来出现每个词的可能性分别是多少。

注意,模型不是 "知道" 唯一正确答案,它是在 "猜" 下一个词最可能是什么。

猜中一个,就把它接到句子末尾,然后基于新的句子,再猜下一个词。再猜一个,再接上…… 一句话、一段话,就是这样一步步挤牙膏 "挤" 出来的。

这也解释了为什么同一个问题,你问两遍,回答可能不完全一样。因为它不是从答案库里复制粘贴,而是每一步都在做概率选择,选的路径不同,出来的句子自然就有差别。

最常见的temperature、top_p、top_k这些参数,本质上就是控制 "怎么猜" 的旋钮。

调这些参数,本质上就是在 "稳定" 和 "创意" 之间找平衡。

如果 "理解" 指的是像人一样有意识、有经验、懂常识,那答案是没有。

它更像是一个把海量语言规律压缩进参数里的系统。通过向量、注意力机制和概率生成,它能把你给的上下文,转化成一段看起来很合理的输出。

它不是在查数据库,也不是在背答案。

它是在每一步生成的时候,根据已经看到的内容,计算出 ——接下来最可能出现什么文字。

而这,就是大模型所谓的 "理解"。

人们担忧的拟人化,只不过是AI背后的工程师通过微调或提示词约束,改变AI的说话方式,使用词和表达更接近人类。

但是AI的发展离不开人类对它的训练,现在AI看起来的无所不能,也只不过是人类数千年文化和科技训练的结果。

现在人类需要AI提高生产力,AI需要人类提供高质量的数据源。如果AI完全依赖自身生成的数据进行迭代,会陷入"自己投喂自己"的闭环退化。 智械危机在现在看来还是杞人忧天,更应该警惕的是掌握AI的人会使用它做什么。