掌握AI数学基础:矩阵运算与Transformer机制解析
恭喜你走到了这个系列的最后一篇。回顾一下我们的路径:
今天,我们把所有零件组装在一起,看到 Transformer 的核心公式:
Attention(Q, K, V) = softmax(QKᵀ / √dₖ) × V
这个公式里的每一步,你都已经学过了。今天只是把它们串起来。
系列导航
▻ 第一篇:从数轴到高维空间
▻ 第二篇:向量的加减法 — 点积与余弦相似度
▻ 第三篇:矩阵——空间的变形术
► 第四篇(本文):矩阵乘法与 AI— 理解 Transformer 的最后一块拼图
▻ 第五篇:激活函数——神经网络的开关
▻ 第六篇:梯度下降——AI 怎么学习
上一篇我们学了矩阵 × 向量——把一个词向量变成新向量。但一句话有很多词,每个都要变换。
聪明的做法:把所有词向量摞成一个矩阵,和变换矩阵一次相乘。
一次矩阵乘法 = 同时变换所有词。这就是 GPU 擅长的事——大规模并行计算。
公式时间
矩阵乘法:A (m×n) × B (n×p) = C (m×p)
C 的第 i 行第 j 列 = A 的第 i 行和 B 的第 j 列做点积。
有了矩阵乘法,我们可以用四步写出完整的 Attention 机制:
第 1 步:三次投影 Q = X × W_q K = X × W_k V = X × W_v (三次矩阵乘法,词向量变成三种角色)
第 2 步:计算注意力分数 scores = Q × Kᵀ / √d (每个词和所有词做点积,再缩放。又是矩阵乘法)
第 3 步:Softmax 归一化 weights = softmax(scores) (把分数变成概率,加起来 = 1。逐元素运算,不是矩阵乘法)
第 4 步:加权求和 output = weights × V (用权重"混合"所有词的 V 向量。最后一次矩阵乘法)
四步中有三步是矩阵乘法。这就是为什么 GPU(擅长大规模并行矩阵运算的芯片)成了 AI 的核心硬件。
💻 以下命令在 Ubuntu 22.04 + Python 3.10 环境中执行
✅ 结果解读:这是简化示例(只有 3 个词 + 随机矩阵),所以权重比较均匀。真实 Transformer 经过训练后,权重会有明显的倾向性——比如"国王"会强烈关注"他的"。
✅ 完整流程走通了!从 3 个词的 4 维词向量开始,经过 Q/K/V 投影、注意力分数、Softmax、加权求和,得到了每个词融合上下文后的新表示。这就是一次 Self-Attention 的全部计算。
现在你能理解一个事实:
Transformer 的几乎所有计算都是矩阵乘法。GPU 的设计初衷就是快速做大规模并行乘加运算。所以 GPU = AI 的心脏。
每个矩阵都是几千维 × 几千维。一次推理就是数万亿次乘加运算。没有 GPU,这些计算可能需要几分钟;有了 GPU,不到一秒。
四篇文章,我们走过了一条清晰的路径:
你现在具备了理解任何 AI 论文中数学符号的基础。看到 θ、W、Q、K、V、softmax——你都知道它们在做什么。
全系列核心公式速查
如果你还没读过我们的Attention 机制完整拆解文章,现在是最好的时机——有了这四篇数学基础,那篇文章里的每一个公式你都能看懂了。
本文首发于「AI 学习笔记」博客:https://Jason-Azure.github.io/ai-blog/ 微信公众号:AI-lab学习笔记