大模型为何爆发：跨过规模阈值的必然

发布时间：2026-05-02 22:06阅读：20

今天的“大模型革命”，常被形容成一段“误打误撞的奇迹”。但曹古拉斯认为，真实情况更像是：人类点燃了火焰，可火势的扩展速度与范围，远远超出了最初的预想与掌控。AI看起来像个黑箱，我们却很难直接给出答案——到底是什么原因让AI走到今天的爆发。基于此，本文想围绕一个主题把脉：当面对人类亲手造出的黑箱时，AI的每一次高涨究竟是怎样被一步步推出来的。

一、Transformer 的诞生：结构改变世界

2017 年，一篇后来被频繁引用的论文—— Attention Is All You Need——提出了新的模型范式：Transformer。相关的关键人物之一是 Ashish Vaswani，当时隶属 Google Brain。它要解决的并不是某个狭窄任务： * 不是为了语音搜索 * 也不是为了让浏览器理解人类话语它关注的更基础的问题是：如何让机器处理“序列”，尤其是语言。在那之前： * RNN 往往太慢，也不利于并行 * LSTM 虽能用，但扩展性仍受限 * 长距离依赖的建模几乎难以真正稳定 Transformer 提出的“注意力机制”，本质上干了一件事：让每个词都能直接“看到”句子里其他所有词。看起来像工程层面的优化，实质却重塑了语言建模的“结构地基”。它并非为某个应用单独定制，而是为一种通用能力搭框架。谷歌与 OpenAI 选择了不同的路径：有人更着眼未来，有人更押注规模。作者更认可后者——规模会把爆发推到更前面。

二、谷歌的技术路线: “押注未来” 有一种说法认为：谷歌确实提出了 Transformer，却错过了随后的AI革命。可实际情况并非如此： * Google 很快把它用在了： * 搜索理解（BERT） * 翻译系统 * 广告与推荐业务也就是说，它明白这项技术的价值所在。问题在于更上层的取舍：谷歌并没有把“语言模型本身”当作最终形态的产品。在谷歌的体系里： * 模型只是组件之一 * 搜索才是核心 * 商业稳定性被放在实验性之前因而 Transformer 更像被嵌入到既有系统中，而不是被拿来一路放大到极限。

对照之下，OpenAI 的做法完全不同。它没有重新发明 Transformer，但做了三件关键的事： 1. 坚定相信一条尚未被彻底验证的规律以 Ilya Sutskever 为代表的一批研究者，长期押注同一个判断：只要模型规模足够大，能力就会发生跃迁。后来这被总结为： → scaling law（规模定律） 2. 把“理论信念”用工程落地从 GPT-1 到 GPT-3： * 参数持续增大 * 数据不断扩充 * 训练过程持续精调这不是一次性的突破，而是多年连续的单向推进。期间没有人能完全确定： * 会不会出现推理能力 * 会不会具备泛化效果 * 会不会“看上去像理解” 然而他们仍然选择继续放大。 3. 用非常直观的交互界面把能力释放出来直到 2022 年，ChatGPT 出现。它只提供一个输入框。那一刻并不是单纯的技术升级，而是：模型能力第一次被普通人直接感知。

四、所谓“涌现”，不是魔法，而是复杂系统的阈值效应

很多人会用“涌现（emergence）”来概括这一切。这个词本身没有错，但很容易被误读。当模型规模变大后，确实会出现： * 上下文理解 * 多步推理 * 代码生成 * 抽象概括这些能力并没有逐条被写进固定的程序。但这不等于它们是“凭空长出来”。更贴切的解释是：当结构、数据和规模共同跨过某个边界时，系统的行为会进入新的区间。就像： * 水在 100°C 会突然沸腾 * 神经网络在某些层面开始形成更接近语义的表征它并非纯粹的奇迹，只是我们还没把其中的规律完全研究清楚。

确实，如今的大模型仍有明显的“不可解释性”。我们清楚： * 架构来自 Transformer * 训练目标是预测下一个 token * 优化方法也相对明确可依然难以回答： * 概念到底是如何被编码进去的？ * 推理链条怎样在参数空间里逐步成形？ * 不同能力又是以什么方式彼此协作出现的？因此，像Mechanistic Interpretability 这样的研究方向正在加速推进。研究者（例如 Chris Olah）试图： * 拆解 attention head * 定位更具语义指向的神经元 * 构建“电路级”的解释框架所以更准确的说法不是：人类完全无法理解，而是我们正从“能够使用”走向“能把它讲明白”。

如果你追问一个大模型：它为什么会这样回答？它往往能给出某种结构层面的说法，但那更多来自： * 训练语料中学到的知识 * 而不是它自身的“内在体验” 它并没有自我模型，也谈不上真正的自省。人类其实也类似： * 我们会思考、会选择、会创造 * 但我们同样很难精确说明：某一个念头究竟是如何在神经层级里被生成出来的。于是，一个有意思的现象出现了：人类无法把大脑完全讲清，AI也无法真正解释自身。

把这一切归咎为“运气”，会低估技术路径的力量；但如果说“完全可控”，又同样不符合现实。更接近事实的表述应该是：人类确实设计了规则、结构以及训练方式；而当规模扩张到某个阶段后，系统的行为开始超出人们最初直觉能覆盖的范围。

如今的大模型，并不是某个瞬间突然被发现的黑箱。它更像一面正在逐渐显影的镜子： * 起初画面模糊 * 随后轮廓浮现 * 逐渐出现细节而我们正处在这样一个阶段：已经能调用它的力量，也在持续学习如何真正理解它。这或许才是当下这个时代最真实的状态。

← 上一篇：AI数字人助手：提升内容创作效率与品质下一篇：天水市第六届中小学人工智能大赛优秀作品展示（数字绘画） →