AI数学的深浅

发布时间：2026-05-24 08:19阅读：20

今天聊点硬核话题。一个疑问：AI究竟运用了多深奥的数学？从技术手段和架构来看，AI所涉数学的“平均年龄”已达150岁，绝大多数源自19世纪以前：矩阵运算、梯度下降、链式法则、傅里叶变换、内积、概率论，大多属于本科低年级课程。

然而，AI涌现出的某些现象，即便是当前最前沿的数学理论也无法阐释。我总结了几个备受关注的现象：

- 缩放定律：当模型规模扩大、数据量增加、算力提升时，模型的损失函数会遵循一条极其平滑的幂律曲线下降，在对数坐标下近乎直线。面对一个拥有数千亿参数、内部高度复杂的巨型网络，其宏观表现竟如此井然有序。为何如此规则，目前尚无人知晓。

- 涌现能力：像三位数运算、复杂推理、代码编写这类技能，小模型几乎束手无策，但当参数量跨过某个临界值，模型足够庞大时，这些能力会突然涌现。这在物理上类似于水凝结成水蒸气——相变。不过水的相变有完备理论，而AI的“能力相变”却缺乏任何模型支撑，

- 双重下降：传统统计学习理论指出：模型越大越易过拟合，测试误差应呈“先降后升”之势。但实际观测到的误差曲线是：先降、再升、随后继续下滑，最终跌至比经典理论最优值更低的位置。整个统计学习理论体系被大模型颠覆，缘何如此？尚无公认解释。

- 上下文学习：GPT-3之后出现的新特性。只需提供几个范例，模型无需更新参数即可执行新任务。按常理“学习”必然涉及参数调整，但大模型在推理时却能即学即用。这暗示模型内部蕴含某种肉眼不可见的“学习机制”。数学上这又是何物？无人能解。

- 表征几何：模型内部究竟习得了什么？某科技公司的可解释性研究揭示了一怪象：单个神经元竟同时编码了多个无关概念，例如某神经元既对“金门大桥”敏感，也对“日语”有反应，甚至对“DNA序列”有响应。按常理一维仅能表达一事，但神经网络似乎掌握了某种“叠加”技巧，在有限维度中塞入了远超维度的特征。

为何如此？现有数学无法解释。

类比物理学，19世纪末的理论主要依赖微积分即可。但当时天际漂浮着几朵“乌云”：黑体辐射、光速实验，旧理论难以解释。这几朵乌云最终催生了量子力学和相对论，推动了20世纪数学的新发展（泛函分析、微分几何、数学结构化）。

AI目前的处境宛如1900年的物理学：工具老旧陈旧，结果却远超预期，遗留大量无法解释的现象，现有数学工具束手无策。

若历史重演，这些“AI的乌云”极有可能是21世纪数学迎来下一次重大飞跃的引爆点。