标签

硬啃 AI 底层原理一天,感觉大脑在扩容

发布时间:2026-07-05 22:23阅读:2

今天刷微博看到 tombkeeper 说想要讲清 AI 的整体思考,得从经济学讲到物理生物,没几万字下不来。

这时我也想到自己用了不少时间的 AI,也算是入门了,知道用它来写自动化脚本,可问我 AI 的底层逻辑是什么,却支支吾吾,前 seawater连 token 这个概念都回答不出来,看来我也只是满足于用罢了。

先啃再说

我相信 AI 是未来的趋势,那想要抓住它,应该懂点基本原理,不需要自己手搓大模型,只要比现在了解得更透彻就够了。所以说做就做,我这个纯文科生,决心今天啃一下 AI 材料。

那么啃什么材料呢?我的方法很简单,先是问 Dia 浏览器的 AI 助手,我一直在用 AI,但是不了解它的底层逻辑,所以如果我想深入了解一层的话,是不是需要读一读 arXiv 论文,或者有没有深入浅出的文章/视频,让我能够理解 AI。

这里我并不打算直接让它给我讲解,而是希望它直接推荐材料。Dia 就给我列了一份清单:3Blue1Brown 的 Transformer 系列第五章,Jay Alammar《The Illustrated Transformer》,以及 Karpathy 经典的 YouTube 长视频。同时我也问了 ChatGPT,同样给我推荐这三份材料,那没什么好犹豫的,啃吧。

我的方法非常笨,没有直接让 AI 帮我总结论文。先是看 3Blue1Brown 的视频,边看边写笔记,遇到不懂的就问 AI,即便看完后觉得囫囵吞枣,没有吃透每个概念,但也不追求,而是继续读文章《The Illustrated Transformer》。

文章的话就比较方便些,比较晦涩的就划词询问,让 AI 给我解释一遍,稍微理解后再继续往下读。但这速度非常慢,因为文章有太多陌生概念,我读得非常吃力,比如编码器、解码器、自注意力、嵌入,以及 Query、Key、Value 值,它们互相乘法加法,目的是分配权重,最后得到加权混合的答案,后来又是什么多头注意力、位置编码、残差……

我中间一度想放弃,但还是做点其他事缓和一下,比如看看 B 站视频,感觉可以继续啃了再回去,最后用了两三个小时才看完这篇文章。

至于为什么不让 AI 解释,其实和 Karpathy 视频所说的那样,AI 给你的是有损压缩,只是为了让你好接受,但就会减去一些东西。问题是好接受不等于好理解,你读原文可以更沉浸在语境中,慢慢就会明悟一些东西,也许只是某句话,就能让你想通整件事。

三个心得

由于啃得太痛苦,所以就没必要给你搬运原文了,就说说最让我觉得醍醐灌顶的几点。

首先,AI 输出并非直接查数据库,而是不断猜下一个词。

这个我之前就有所耳闻,但不了解具体机制,而今天才知道 Transformer 架构的大模型只是在预测下一个词,最后一个个向外蹦出来。

蹦什么词呢?在你看不到的黑箱里,大模型就会经过繁复的计算,然后得到基于当前情境最合适的答案。举个例子,比如 AI 正在写「我是一个——」,后面必然要接一个词,这时会有许多备选词:人类、猫、狗、牛、羊等等,而用哪个词会基于上下文来计算,如果你之前在严厉批评它过于讨好,它说不定就会接「谄媚的人工智能」。

这只是非常粗浅的举例,但可以解释 AI 的幻觉从何而来,以及为什么在新的对话问同一个问题时,会得到不同的答案。幻觉是因为他并非完全基于语料库的事实来回答,而是不断给出更符合预测的字词;不一样是 AI 每次都在重新输出,预测值也在不停变换,这也会出现对话时你让 AI 重试回答,就能得到新的结果。

其次,词居然是可以做算术的。

大模型会把字词变成一组数字,可以理解为它们的坐标,可以和不同词关联起来,进行计算。这个把词变成数字的过程,叫作嵌入(embedding)。而对于用户的问题,AI 并非直接理解字面意思,是通过换算来得到结果。

譬如女王 ≈ 国王 + 女人 - 男人,希特勒 + 意大利 - 德国 ≈ 墨索里尼,这有点像把字词划分成几个变量,只要略微调整,就能得到新的含义。

这就是计算机对自然语言的改变,它是从数学角度来理解字词的含义,毕竟计算机一开始就是为了解决数学问题,GPU 擅长同时做海量的乘法运算,而语言被变成数字矩阵后,正好就是这种大模型计算,所以才能拿来跑语言模型。

最后一个就是注意力(Attention)机制,它非常像人类。

除了之前所说的材料,AI 其实还推荐一篇堪称奠基的论文《Attention Is All You Need》,注意力是你所需要的一切,我当时还以为是让人维护自己的注意力,谁知道这还是大模型的机制:注意力也是它们的一切。

为什么大模型需要给字词分配权重,而且权重相加就是 100%,这模拟了我们人类的注意力,你的注意力极其有限,只能分配给少量的事。而大模型在理解一句话时,不会对每个词雨露均沾,而是把有限的注意力,分配给最值得关注的那几个词。

这个太美妙了。我们人的注意力就是 100%,在码字时我分了七成给大脑,一成给屏幕,一成给键盘,剩下的一成放在外界的噪音、气温、天气上;而 AI 就是如此,它模拟了人的注意力,就不会给出一盘散沙的答案,而是看起来像是那么一回事的东西。

另外有意思的一点是,《The Illustrated Transformer》用了相当大的篇幅来解释编码器(encoding component)的机制,而 GPT 它没有这东西,只有解码器(decoding component),我顿时慌了,合着我刚才白看了?

Dia 立即安慰我,说 GPT 的解码器就包含了刚才所说的东西,但这是精简版,更方便大模型解码,我一下子就安心了。

有什么用?

这些机制了解个大概后,也能帮助我去理解日常如何使用 AI。

1、大模型每次输出的内容,都需要结合上下文(context)和新输入,来重新生成。

大模型最开始的上下文容量极小(GPT-3 只有 2048 个 token),所以生成质量较差,因为每次能容纳的信息都极其有限,早期就需要反复发送「继续」才能写长文,现在大模型已经迭代到 1M 的上下文窗口,能够容纳更多信息——当然并非越大越好,太大时信息会被摊薄,稀释了大模型的注意力。

2、AI 的幻觉不可避免,因为它给出的答案往往基于概率,因此一些比较重要的信息需要你自身去核实。

之前我就上过一次 AI 的当,它言之凿凿告诉我一件事,其实它是通过语料库给出概率最高的答案,但不等于百分之百准确。

3、AI 的泛化和幻觉其实是一体两面。

正因为大模型是对互联网信息的有损压缩,所以给出的东西可能准确也可能全是幻觉,但好处是可以作为发散思维,给出你未曾想过的角度,是故也没办法摈弃幻觉。好在现在 AI 普遍增加联网功能后,就不再根据陈旧的语料库来输出内容,而是会结合当前的新闻来输出,幻觉有所下降。

以上就是我的一些启发,其实学到最后,我就会反思这东西究竟有没有用。

是的,毕竟我只要懂得 AI 的方法论就够了,多看看其他人分享了哪些 Skills、工作流、经验心得,就能解决我工作和生活中的绝大多数问题。可另一方面,我又觉得这能建立起一个锚点,将来接触 AI,也能知道是哪方面在起作用,不至于盲目褒贬。

学习的过程让我觉得头皮发痒,好像要长脑子了。我好久没这样把大脑扔到完全陌生的领域,胡乱塞入一些概念,再渐渐理解,不断思考,这个过程又痛又爽,难以言喻,可学习本身就带着一点点痛苦,太顺遂反而记不住,痛过会感到几分快乐。

原因其实也简单,我现在大脑的 context 比较小,还塞不进多少东西,理解起来也慢。但理论上不断刺激它,就能扩大 context,把旧知识变成我的语料库,迭代到下一个大模型了。

好像又要长脑子了。