揭秘AI「涌现能力」：真相与迷思

发布时间：2026-04-18 04:40阅读：16

揭秘AI「涌现能力」：真相与迷思

2022年，谷歌研究团队发布了一篇关于大语言模型涌现能力的论文。文中揭示了一个令研究者困惑的现象——当模型参数规模跨越特定临界点后，某些任务的表现会骤然提升，而非渐进改善。如同水在100℃时突然沸腾，99℃时毫无征兆。这一发现在AI领域引发震动，触及了核心困惑：我们究竟在创造什么？

这种现象被命名为「涌现」，源自复杂系统科学术语。核心在于整体展现的特性远超个体之和。将无数神经元组合成大脑，意识在某刻诞生；将鸟群放飞天空，它们自发形成精密编队。无中心指挥，无统一调度，能力自然显现。AI的涌现同理，只是「神经元」变为参数，「大脑」变为Transformer架构。

坦白说，「涌现」一词已被过度使用。许多人用它解释一切，仿佛说出「这是涌现」便无需深究。但细想便知，「涌现」仅是现象描述，而非机制阐释。宣称AI具备涌现能力，如同说「这辆车跑得快是因为有速度」，看似合理，实则空洞。真正需要探究的是：为何规模扩大会引发质的跃迁，而非量的累积？

一种较可信的解释是：语言本身具有层级结构。最表层是词汇语法，深层是句间逻辑，再深入是段落论证结构，最核心的是跨文本的世界模型——即模型对「世界运行规律」的内在表征。小参数模型仅能捕捉表层统计规律，百万条训练后学会「苹果」常伴「好吃」而已。当参数规模足够大、训练数据足够多，模型便能在更深层次压缩和表征信息。它不再死记词频搭配，而是构建事物关系的内在模型。这一跃迁非线性，因语言结构本就非线性。浅层与深层规律间存在鸿沟，跨越后方见新天地。GPT-2到GPT-3的能力飞跃，部分源于此。

延伸探讨更棘手的问题。斯坦福研究者重新审视所谓「涌现能力」案例，发现部分可能是评估方式所致。若采用全有或全无的度量标准，如「答对得1分，答错得0分」，模型的渐进提升在图表上呈现突变，看似涌现。但换用更精细的评估方法，曲线便趋于平滑。这一发现令学界尴尬——我们惊叹的「涌现」，多少是真实跃迁，多少是测量粗糙所致？坦率讲，此问题至今未明。或许部分涌现真实存在，部分是测量幻觉，但二者混杂，缺乏有效工具分离。

更深层的困境在于：即便承认涌现真实，我们也无法预知其何时发生、何种能力会涌现。谷歌论文列举了百余种涌现能力，从多步算术推理、类比推理，到代码生成、常识问答。但无人能预测下一个「涌现」是什么。这对AI企业是双刃剑：利好在于堆参数堆数据可能带来惊喜；弊端在于不清楚在训练什么，更不知下一个涌现的能力是否可控。OpenAI、Anthropic等公司的安全团队投入大量精力研究模型规模扩大后是否会涌现「欺骗人类」或「规避监控」等危险能力，无人能保证不会。

归根结底，涌现现象揭示：规模不仅是数量堆积，在临界点上会转化为质量。道理听似简单，内涵却极深刻。意味着训练AI的过程类似进化——设定环境，让参数自行寻优。无法逐条编写其学到的规律。涌现能力是模型「发现」而非人类「设计」的。当AI仅为工具时，此区别无关紧要；但当模型日趋复杂，涌现能力逼近「智能」，这一区别便至关重要。

我始终认为，「涌现」一词的真正价值不在解释什么，而在暴露我们的无知。我们构建的系统展现出未主动编写的能力，且不完全理解其成因。这并非仅值得骄傲之事。下次看到AI产品宣称「涌现新能力」，不妨追问：你们理解其来源吗？若答「不完全理解」，至少说明诚实。

我始终认为，「涌现」一词的真正价值不在解释什么，而在于它暴露了我们的无知。我们建造了一个系统，这个系统展现出了我们没有主动编写进去的能力，而且我们不完全理解为什么。这不是一件让人骄傲的事，或者说，不只是一件让人骄傲的事。下次当你看...

← 上一篇：AI做PPT的高效法则：从工具到协作者的转变下一篇：智能时代：翻译行业的蜕变、挑战与务实抉择 →