标签

大模型为何爆发:跨过规模阈值的必然

发布时间:2026-05-02 22:06来源:微信阅读:6

今天的“大模型革命”,常被形容成一段“误打误撞的奇迹”。但曹古拉斯认为,真实情况更像是:人类点燃了火焰,可火势的扩展速度与范围,远远超出了最初的预想与掌控。AI看起来像个黑箱,我们却很难直接给出答案——到底是什么原因让AI走到今天的爆发。基于此,本文想围绕一个主题把脉:当面对人类亲手造出的黑箱时,AI的每一次高涨究竟是怎样被一步步推出来的。

一、Transformer 的诞生:结构改变世界

2017 年,一篇后来被频繁引用的论文—— Attention Is All You Need——提出了新的模型范式:Transformer。相关的关键人物之一是 Ashish Vaswani,当时隶属 Google Brain。它要解决的并不是某个狭窄任务: * 不是为了语音搜索 * 也不是为了让浏览器理解人类话语 它关注的更基础的问题是:如何让机器处理“序列”,尤其是语言。在那之前: * RNN 往往太慢,也不利于并行 * LSTM 虽能用,但扩展性仍受限 * 长距离依赖的建模几乎难以真正稳定 Transformer 提出的“注意力机制”,本质上干了一件事:让每个词都能直接“看到”句子里其他所有词。看起来像工程层面的优化,实质却重塑了语言建模的“结构地基”。它并非为某个应用单独定制,而是为一种通用能力搭框架。谷歌与 OpenAI 选择了不同的路径:有人更着眼未来,有人更押注规模。作者更认可后者——规模会把爆发推到更前面。

二、谷歌的技术路线: “押注未来” 有一种说法认为:谷歌确实提出了 Transformer,却错过了随后的AI革命。可实际情况并非如此: * Google 很快把它用在了: * 搜索理解(BERT) * 翻译系统 * 广告与推荐业务 也就是说,它明白这项技术的价值所在。问题在于更上层的取舍:谷歌并没有把“语言模型本身”当作最终形态的产品。在谷歌的体系里: * 模型只是组件之一 * 搜索才是核心 * 商业稳定性被放在实验性之前 因而 Transformer 更像被嵌入到既有系统中,而不是被拿来一路放大到极限。

对照之下,OpenAI 的做法完全不同。它没有重新发明 Transformer,但做了三件关键的事: 1. 坚定相信一条尚未被彻底验证的规律 以 Ilya Sutskever 为代表的一批研究者,长期押注同一个判断:只要模型规模足够大,能力就会发生跃迁。后来这被总结为: → scaling law(规模定律) 2. 把“理论信念”用工程落地 从 GPT-1 到 GPT-3: * 参数持续增大 * 数据不断扩充 * 训练过程持续精调 这不是一次性的突破,而是多年连续的单向推进。期间没有人能完全确定: * 会不会出现推理能力 * 会不会具备泛化效果 * 会不会“看上去像理解” 然而他们仍然选择继续放大。 3. 用非常直观的交互界面把能力释放出来 直到 2022 年,ChatGPT 出现。它只提供一个输入框。那一刻并不是单纯的技术升级,而是:模型能力第一次被普通人直接感知。

四、所谓“涌现”,不是魔法,而是复杂系统的阈值效应

很多人会用“涌现(emergence)”来概括这一切。这个词本身没有错,但很容易被误读。当模型规模变大后,确实会出现: * 上下文理解 * 多步推理 * 代码生成 * 抽象概括 这些能力并没有逐条被写进固定的程序。但这不等于它们是“凭空长出来”。更贴切的解释是:当结构、数据和规模共同跨过某个边界时,系统的行为会进入新的区间。就像: * 水在 100°C 会突然沸腾 * 神经网络在某些层面开始形成更接近语义的表征 它并非纯粹的奇迹,只是我们还没把其中的规律完全研究清楚。

确实,如今的大模型仍有明显的“不可解释性”。我们清楚: * 架构来自 Transformer * 训练目标是预测下一个 token * 优化方法也相对明确 可依然难以回答: * 概念到底是如何被编码进去的? * 推理链条怎样在参数空间里逐步成形? * 不同能力又是以什么方式彼此协作出现的?因此,像Mechanistic Interpretability 这样的研究方向正在加速推进。研究者(例如 Chris Olah)试图: * 拆解 attention head * 定位更具语义指向的神经元 * 构建“电路级”的解释框架 所以更准确的说法不是:人类完全无法理解,而是我们正从“能够使用”走向“能把它讲明白”。

如果你追问一个大模型:它为什么会这样回答?它往往能给出某种结构层面的说法,但那更多来自: * 训练语料中学到的知识 * 而不是它自身的“内在体验” 它并没有自我模型,也谈不上真正的自省。人类其实也类似: * 我们会思考、会选择、会创造 * 但我们同样很难精确说明:某一个念头究竟是如何在神经层级里被生成出来的。于是,一个有意思的现象出现了:人类无法把大脑完全讲清,AI也无法真正解释自身。

把这一切归咎为“运气”,会低估技术路径的力量;但如果说“完全可控”,又同样不符合现实。更接近事实的表述应该是:人类确实设计了规则、结构以及训练方式;而当规模扩张到某个阶段后,系统的行为开始超出人们最初直觉能覆盖的范围。

如今的大模型,并不是某个瞬间突然被发现的黑箱。它更像一面正在逐渐显影的镜子: * 起初画面模糊 * 随后轮廓浮现 * 逐渐出现细节 而我们正处在这样一个阶段:已经能调用它的力量,也在持续学习如何真正理解它。这或许才是当下这个时代最真实的状态。