掌握AI数学基础：矩阵运算与Transformer机制解析

发布时间：2026-05-31 18:15阅读：105

恭喜你走到了这个系列的最后一篇。回顾一下我们的路径：

今天，我们把所有零件组装在一起，看到 Transformer 的核心公式：

Attention(Q, K, V) = softmax(QKᵀ / √dₖ) × V

这个公式里的每一步，你都已经学过了。今天只是把它们串起来。

系列导航

▻ 第一篇：从数轴到高维空间

▻ 第二篇：向量的加减法 — 点积与余弦相似度

▻ 第三篇：矩阵——空间的变形术

► 第四篇（本文）：矩阵乘法与 AI— 理解 Transformer 的最后一块拼图

▻ 第五篇：激活函数——神经网络的开关

▻ 第六篇：梯度下降——AI 怎么学习

上一篇我们学了矩阵 × 向量——把一个词向量变成新向量。但一句话有很多词，每个都要变换。

聪明的做法：把所有词向量摞成一个矩阵，和变换矩阵一次相乘。

一次矩阵乘法 = 同时变换所有词。这就是 GPU 擅长的事——大规模并行计算。

公式时间

矩阵乘法：A (m×n) × B (n×p) = C (m×p)

C 的第 i 行第 j 列 = A 的第 i 行和 B 的第 j 列做点积。

有了矩阵乘法，我们可以用四步写出完整的 Attention 机制：

第 1 步：三次投影 Q = X × W_q K = X × W_k V = X × W_v （三次矩阵乘法，词向量变成三种角色）

第 2 步：计算注意力分数 scores = Q × Kᵀ / √d （每个词和所有词做点积，再缩放。又是矩阵乘法）

第 3 步：Softmax 归一化 weights = softmax(scores) （把分数变成概率，加起来 = 1。逐元素运算，不是矩阵乘法）

第 4 步：加权求和 output = weights × V （用权重"混合"所有词的 V 向量。最后一次矩阵乘法）

四步中有三步是矩阵乘法。这就是为什么 GPU（擅长大规模并行矩阵运算的芯片）成了 AI 的核心硬件。

💻 以下命令在 Ubuntu 22.04 + Python 3.10 环境中执行

✅ 结果解读：这是简化示例（只有 3 个词 + 随机矩阵），所以权重比较均匀。真实 Transformer 经过训练后，权重会有明显的倾向性——比如"国王"会强烈关注"他的"。

✅ 完整流程走通了！从 3 个词的 4 维词向量开始，经过 Q/K/V 投影、注意力分数、Softmax、加权求和，得到了每个词融合上下文后的新表示。这就是一次 Self-Attention 的全部计算。

现在你能理解一个事实：

Transformer 的几乎所有计算都是矩阵乘法。GPU 的设计初衷就是快速做大规模并行乘加运算。所以 GPU = AI 的心脏。

每个矩阵都是几千维 × 几千维。一次推理就是数万亿次乘加运算。没有 GPU，这些计算可能需要几分钟；有了 GPU，不到一秒。

四篇文章，我们走过了一条清晰的路径：

你现在具备了理解任何 AI 论文中数学符号的基础。看到 θ、W、Q、K、V、softmax——你都知道它们在做什么。

全系列核心公式速查

如果你还没读过我们的Attention 机制完整拆解文章，现在是最好的时机——有了这四篇数学基础，那篇文章里的每一个公式你都能看懂了。

本文首发于「AI 学习笔记」博客：https://Jason-Azure.github.io/ai-blog/ 微信公众号：AI-lab学习笔记