硬啃 AI 底层原理一天，感觉大脑在扩容

发布时间：2026-07-05 22:23阅读：2

今天刷微博看到 tombkeeper 说想要讲清 AI 的整体思考，得从经济学讲到物理生物，没几万字下不来。

这时我也想到自己用了不少时间的 AI，也算是入门了，知道用它来写自动化脚本，可问我 AI 的底层逻辑是什么，却支支吾吾，前 seawater连 token 这个概念都回答不出来，看来我也只是满足于用罢了。

先啃再说

我相信 AI 是未来的趋势，那想要抓住它，应该懂点基本原理，不需要自己手搓大模型，只要比现在了解得更透彻就够了。所以说做就做，我这个纯文科生，决心今天啃一下 AI 材料。

那么啃什么材料呢？我的方法很简单，先是问 Dia 浏览器的 AI 助手，我一直在用 AI，但是不了解它的底层逻辑，所以如果我想深入了解一层的话，是不是需要读一读 arXiv 论文，或者有没有深入浅出的文章/视频，让我能够理解 AI。

这里我并不打算直接让它给我讲解，而是希望它直接推荐材料。Dia 就给我列了一份清单：3Blue1Brown 的 Transformer 系列第五章，Jay Alammar《The Illustrated Transformer》，以及 Karpathy 经典的 YouTube 长视频。同时我也问了 ChatGPT，同样给我推荐这三份材料，那没什么好犹豫的，啃吧。

我的方法非常笨，没有直接让 AI 帮我总结论文。先是看 3Blue1Brown 的视频，边看边写笔记，遇到不懂的就问 AI，即便看完后觉得囫囵吞枣，没有吃透每个概念，但也不追求，而是继续读文章《The Illustrated Transformer》。

文章的话就比较方便些，比较晦涩的就划词询问，让 AI 给我解释一遍，稍微理解后再继续往下读。但这速度非常慢，因为文章有太多陌生概念，我读得非常吃力，比如编码器、解码器、自注意力、嵌入，以及 Query、Key、Value 值，它们互相乘法加法，目的是分配权重，最后得到加权混合的答案，后来又是什么多头注意力、位置编码、残差……

我中间一度想放弃，但还是做点其他事缓和一下，比如看看 B 站视频，感觉可以继续啃了再回去，最后用了两三个小时才看完这篇文章。

至于为什么不让 AI 解释，其实和 Karpathy 视频所说的那样，AI 给你的是有损压缩，只是为了让你好接受，但就会减去一些东西。问题是好接受不等于好理解，你读原文可以更沉浸在语境中，慢慢就会明悟一些东西，也许只是某句话，就能让你想通整件事。

三个心得

由于啃得太痛苦，所以就没必要给你搬运原文了，就说说最让我觉得醍醐灌顶的几点。

首先，AI 输出并非直接查数据库，而是不断猜下一个词。

这个我之前就有所耳闻，但不了解具体机制，而今天才知道 Transformer 架构的大模型只是在预测下一个词，最后一个个向外蹦出来。

蹦什么词呢？在你看不到的黑箱里，大模型就会经过繁复的计算，然后得到基于当前情境最合适的答案。举个例子，比如 AI 正在写「我是一个——」，后面必然要接一个词，这时会有许多备选词：人类、猫、狗、牛、羊等等，而用哪个词会基于上下文来计算，如果你之前在严厉批评它过于讨好，它说不定就会接「谄媚的人工智能」。

这只是非常粗浅的举例，但可以解释 AI 的幻觉从何而来，以及为什么在新的对话问同一个问题时，会得到不同的答案。幻觉是因为他并非完全基于语料库的事实来回答，而是不断给出更符合预测的字词；不一样是 AI 每次都在重新输出，预测值也在不停变换，这也会出现对话时你让 AI 重试回答，就能得到新的结果。

其次，词居然是可以做算术的。

大模型会把字词变成一组数字，可以理解为它们的坐标，可以和不同词关联起来，进行计算。这个把词变成数字的过程，叫作嵌入（embedding）。而对于用户的问题，AI 并非直接理解字面意思，是通过换算来得到结果。

譬如女王 ≈ 国王 + 女人 - 男人，希特勒 + 意大利 - 德国 ≈ 墨索里尼，这有点像把字词划分成几个变量，只要略微调整，就能得到新的含义。

这就是计算机对自然语言的改变，它是从数学角度来理解字词的含义，毕竟计算机一开始就是为了解决数学问题，GPU 擅长同时做海量的乘法运算，而语言被变成数字矩阵后，正好就是这种大模型计算，所以才能拿来跑语言模型。

最后一个就是注意力（Attention）机制，它非常像人类。

除了之前所说的材料，AI 其实还推荐一篇堪称奠基的论文《Attention Is All You Need》，注意力是你所需要的一切，我当时还以为是让人维护自己的注意力，谁知道这还是大模型的机制：注意力也是它们的一切。

为什么大模型需要给字词分配权重，而且权重相加就是 100%，这模拟了我们人类的注意力，你的注意力极其有限，只能分配给少量的事。而大模型在理解一句话时，不会对每个词雨露均沾，而是把有限的注意力，分配给最值得关注的那几个词。

这个太美妙了。我们人的注意力就是 100%，在码字时我分了七成给大脑，一成给屏幕，一成给键盘，剩下的一成放在外界的噪音、气温、天气上；而 AI 就是如此，它模拟了人的注意力，就不会给出一盘散沙的答案，而是看起来像是那么一回事的东西。

另外有意思的一点是，《The Illustrated Transformer》用了相当大的篇幅来解释编码器（encoding component）的机制，而 GPT 它没有这东西，只有解码器（decoding component），我顿时慌了，合着我刚才白看了？

Dia 立即安慰我，说 GPT 的解码器就包含了刚才所说的东西，但这是精简版，更方便大模型解码，我一下子就安心了。

有什么用？

这些机制了解个大概后，也能帮助我去理解日常如何使用 AI。

1、大模型每次输出的内容，都需要结合上下文（context）和新输入，来重新生成。

大模型最开始的上下文容量极小（GPT-3 只有 2048 个 token），所以生成质量较差，因为每次能容纳的信息都极其有限，早期就需要反复发送「继续」才能写长文，现在大模型已经迭代到 1M 的上下文窗口，能够容纳更多信息——当然并非越大越好，太大时信息会被摊薄，稀释了大模型的注意力。

2、AI 的幻觉不可避免，因为它给出的答案往往基于概率，因此一些比较重要的信息需要你自身去核实。

之前我就上过一次 AI 的当，它言之凿凿告诉我一件事，其实它是通过语料库给出概率最高的答案，但不等于百分之百准确。

3、AI 的泛化和幻觉其实是一体两面。

正因为大模型是对互联网信息的有损压缩，所以给出的东西可能准确也可能全是幻觉，但好处是可以作为发散思维，给出你未曾想过的角度，是故也没办法摈弃幻觉。好在现在 AI 普遍增加联网功能后，就不再根据陈旧的语料库来输出内容，而是会结合当前的新闻来输出，幻觉有所下降。

以上就是我的一些启发，其实学到最后，我就会反思这东西究竟有没有用。

是的，毕竟我只要懂得 AI 的方法论就够了，多看看其他人分享了哪些 Skills、工作流、经验心得，就能解决我工作和生活中的绝大多数问题。可另一方面，我又觉得这能建立起一个锚点，将来接触 AI，也能知道是哪方面在起作用，不至于盲目褒贬。

学习的过程让我觉得头皮发痒，好像要长脑子了。我好久没这样把大脑扔到完全陌生的领域，胡乱塞入一些概念，再渐渐理解，不断思考，这个过程又痛又爽，难以言喻，可学习本身就带着一点点痛苦，太顺遂反而记不住，痛过会感到几分快乐。

原因其实也简单，我现在大脑的 context 比较小，还塞不进多少东西，理解起来也慢。但理论上不断刺激它，就能扩大 context，把旧知识变成我的语料库，迭代到下一个大模型了。

好像又要长脑子了。

← 上一篇：AI课堂如何真正促进学生深度思考下一篇：AI能接棒房地产吗？ →