AI数学的深浅
今天聊点硬核话题。一个疑问:AI究竟运用了多深奥的数学?从技术手段和架构来看,AI所涉数学的“平均年龄”已达150岁,绝大多数源自19世纪以前:矩阵运算、梯度下降、链式法则、傅里叶变换、内积、概率论,大多属于本科低年级课程。
然而,AI涌现出的某些现象,即便是当前最前沿的数学理论也无法阐释。我总结了几个备受关注的现象:
- 缩放定律:当模型规模扩大、数据量增加、算力提升时,模型的损失函数会遵循一条极其平滑的幂律曲线下降,在对数坐标下近乎直线。面对一个拥有数千亿参数、内部高度复杂的巨型网络,其宏观表现竟如此井然有序。为何如此规则,目前尚无人知晓。
- 涌现能力:像三位数运算、复杂推理、代码编写这类技能,小模型几乎束手无策,但当参数量跨过某个临界值,模型足够庞大时,这些能力会突然涌现。这在物理上类似于水凝结成水蒸气——相变。不过水的相变有完备理论,而AI的“能力相变”却缺乏任何模型支撑,
- 双重下降:传统统计学习理论指出:模型越大越易过拟合,测试误差应呈“先降后升”之势。但实际观测到的误差曲线是:先降、再升、随后继续下滑,最终跌至比经典理论最优值更低的位置。整个统计学习理论体系被大模型颠覆,缘何如此?尚无公认解释。
- 上下文学习:GPT-3之后出现的新特性。只需提供几个范例,模型无需更新参数即可执行新任务。按常理“学习”必然涉及参数调整,但大模型在推理时却能即学即用。这暗示模型内部蕴含某种肉眼不可见的“学习机制”。数学上这又是何物?无人能解。
- 表征几何:模型内部究竟习得了什么?某科技公司的可解释性研究揭示了一怪象:单个神经元竟同时编码了多个无关概念,例如某神经元既对“金门大桥”敏感,也对“日语”有反应,甚至对“DNA序列”有响应。按常理一维仅能表达一事,但神经网络似乎掌握了某种“叠加”技巧,在有限维度中塞入了远超维度的特征。
为何如此?现有数学无法解释。
类比物理学,19世纪末的理论主要依赖微积分即可。但当时天际漂浮着几朵“乌云”:黑体辐射、光速实验,旧理论难以解释。这几朵乌云最终催生了量子力学和相对论,推动了20世纪数学的新发展(泛函分析、微分几何、数学结构化)。
AI目前的处境宛如1900年的物理学:工具老旧陈旧,结果却远超预期,遗留大量无法解释的现象,现有数学工具束手无策。
若历史重演,这些“AI的乌云”极有可能是21世纪数学迎来下一次重大飞跃的引爆点。