酷阅新闻

AI真的懂人话吗？

发布时间：2026-06-23 23:21阅读：2

你以为模型在 "读汉字"，其实它先做了一道 "切分题"。

模型会把输入的句子切成一个个最小处理单位，叫做token。一个 token 可能是一个字，可能是一个词，也可能只是词的一部分。

比如 "地铁站" 可能是一个 token，也可能被切成 "地铁"+"站"，取决于模型的分词规则。

切完之后，每个 token 会被转换成一个数字编号。但编号本身没有意义。

就像身份证号 141121xxxxxxxxxxxx，你能看出这个人是内向还是外向吗？看不出。

token ID 也一样，它只是个索引，不能告诉模型 "地铁站" 是什么意思，更不知道它和 "公交站" 有什么关系。

第二步：真正承载语义的，是向量

那语义藏在哪里？

藏在向量里。

你可以把向量想象成一组坐标 —— 不是二维、三维，而是成百上千维的高维坐标。每个 token 都有自己的向量，在这个高维语义空间里占据一个位置。

位置接近的，含义通常也接近。

比如 "地铁站"" 公交站 ""机场" 这三个词，经常出现在 "出行"" 路线 ""多久到达" 这类上下文里，它们的向量位置就会靠得比较近；而 "报表"" 预算 ""审批" 这些词，则会聚集在办公、财务那一片区域。

这些关系不是工程师手写的，也不是模型查字典查来的 —— 是 "统计" 出来的。

哪些词总一起出现？哪些词能填进同一句子的空格里？哪些词能帮你猜到下一个词是什么？模型在海量文本里反复做这些题，慢慢就把每个词 "摆" 到了合适的位置上。

训练刚开始的时候，向量基本是随机的。模型不断地做预测 —— 比如看着前面的字，猜下一个字是什么。猜错了就根据误差往回调整，一点点修正内部参数。练得多了，含义相近的词自然就凑到了一起。

光有静态向量还不够。

想想看："苹果发布了新品" 和 "我买了一个苹果"—— 这两个 "苹果" 是一回事吗？

显然不是。一个是科技公司，一个是水果。如果每个词只有一个固定的向量，模型就分不清这种差别。

所以现代大模型用了Transformer和注意力机制，让每个 token 的向量变成 "动态" 的。

注意力机制是干什么的？简单说就是：让每个词看看上下文，决定自己此刻该是什么意思。

看到 "发布"" 新品 "，" 苹果 "就往公司那边靠；看到" 买了 ""吃"，就往水果那边靠。模型不是孤立地理解一个词，而是结合整句话的语境，重新计算出一个 "此时此刻的我"。

这就是为什么大模型能处理歧义 —— 它看的不是词，是词和语境的关系。

理解了输入之后，模型又是怎么生成一句话的呢？

过程其实很 "笨"——一个字一个字地猜。

这些原始分数叫logits。经过一个叫softmax的函数处理后，分数会变成概率分布 —— 意思就是：接下来出现每个词的可能性分别是多少。

注意，模型不是 "知道" 唯一正确答案，它是在 "猜" 下一个词最可能是什么。

猜中一个，就把它接到句子末尾，然后基于新的句子，再猜下一个词。再猜一个，再接上…… 一句话、一段话，就是这样一步步挤牙膏 "挤" 出来的。

这也解释了为什么同一个问题，你问两遍，回答可能不完全一样。因为它不是从答案库里复制粘贴，而是每一步都在做概率选择，选的路径不同，出来的句子自然就有差别。

最常见的temperature、top_p、top_k这些参数，本质上就是控制 "怎么猜" 的旋钮。

调这些参数，本质上就是在 "稳定" 和 "创意" 之间找平衡。

如果 "理解" 指的是像人一样有意识、有经验、懂常识，那答案是没有。

它更像是一个把海量语言规律压缩进参数里的系统。通过向量、注意力机制和概率生成，它能把你给的上下文，转化成一段看起来很合理的输出。

它不是在查数据库，也不是在背答案。

它是在每一步生成的时候，根据已经看到的内容，计算出 ——接下来最可能出现什么文字。

而这，就是大模型所谓的 "理解"。

人们担忧的拟人化，只不过是AI背后的工程师通过微调或提示词约束，改变AI的说话方式，使用词和表达更接近人类。

但是AI的发展离不开人类对它的训练，现在AI看起来的无所不能，也只不过是人类数千年文化和科技训练的结果。

现在人类需要AI提高生产力，AI需要人类提供高质量的数据源。如果AI完全依赖自身生成的数据进行迭代，会陷入"自己投喂自己"的闭环退化。智械危机在现在看来还是杞人忧天，更应该警惕的是掌握AI的人会使用它做什么。

← 上一篇：数据与权力：人工智能的历史根基下一篇：亚马逊云科技储瑞松：智能体AI迎来爆发临界点 →