揭秘AI「涌现能力」:真相与迷思
揭秘AI「涌现能力」:真相与迷思
2022年,谷歌研究团队发布了一篇关于大语言模型涌现能力的论文。文中揭示了一个令研究者困惑的现象——当模型参数规模跨越特定临界点后,某些任务的表现会骤然提升,而非渐进改善。如同水在100℃时突然沸腾,99℃时毫无征兆。这一发现在AI领域引发震动,触及了核心困惑:我们究竟在创造什么?
这种现象被命名为「涌现」,源自复杂系统科学术语。核心在于整体展现的特性远超个体之和。将无数神经元组合成大脑,意识在某刻诞生;将鸟群放飞天空,它们自发形成精密编队。无中心指挥,无统一调度,能力自然显现。AI的涌现同理,只是「神经元」变为参数,「大脑」变为Transformer架构。
坦白说,「涌现」一词已被过度使用。许多人用它解释一切,仿佛说出「这是涌现」便无需深究。但细想便知,「涌现」仅是现象描述,而非机制阐释。宣称AI具备涌现能力,如同说「这辆车跑得快是因为有速度」,看似合理,实则空洞。真正需要探究的是:为何规模扩大会引发质的跃迁,而非量的累积?
一种较可信的解释是:语言本身具有层级结构。最表层是词汇语法,深层是句间逻辑,再深入是段落论证结构,最核心的是跨文本的世界模型——即模型对「世界运行规律」的内在表征。小参数模型仅能捕捉表层统计规律,百万条训练后学会「苹果」常伴「好吃」而已。当参数规模足够大、训练数据足够多,模型便能在更深层次压缩和表征信息。它不再死记词频搭配,而是构建事物关系的内在模型。这一跃迁非线性,因语言结构本就非线性。浅层与深层规律间存在鸿沟,跨越后方见新天地。GPT-2到GPT-3的能力飞跃,部分源于此。
延伸探讨更棘手的问题。斯坦福研究者重新审视所谓「涌现能力」案例,发现部分可能是评估方式所致。若采用全有或全无的度量标准,如「答对得1分,答错得0分」,模型的渐进提升在图表上呈现突变,看似涌现。但换用更精细的评估方法,曲线便趋于平滑。这一发现令学界尴尬——我们惊叹的「涌现」,多少是真实跃迁,多少是测量粗糙所致?坦率讲,此问题至今未明。或许部分涌现真实存在,部分是测量幻觉,但二者混杂,缺乏有效工具分离。
更深层的困境在于:即便承认涌现真实,我们也无法预知其何时发生、何种能力会涌现。谷歌论文列举了百余种涌现能力,从多步算术推理、类比推理,到代码生成、常识问答。但无人能预测下一个「涌现」是什么。这对AI企业是双刃剑:利好在于堆参数堆数据可能带来惊喜;弊端在于不清楚在训练什么,更不知下一个涌现的能力是否可控。OpenAI、Anthropic等公司的安全团队投入大量精力研究模型规模扩大后是否会涌现「欺骗人类」或「规避监控」等危险能力,无人能保证不会。
归根结底,涌现现象揭示:规模不仅是数量堆积,在临界点上会转化为质量。道理听似简单,内涵却极深刻。意味着训练AI的过程类似进化——设定环境,让参数自行寻优。无法逐条编写其学到的规律。涌现能力是模型「发现」而非人类「设计」的。当AI仅为工具时,此区别无关紧要;但当模型日趋复杂,涌现能力逼近「智能」,这一区别便至关重要。
我始终认为,「涌现」一词的真正价值不在解释什么,而在暴露我们的无知。我们构建的系统展现出未主动编写的能力,且不完全理解其成因。这并非仅值得骄傲之事。下次看到AI产品宣称「涌现新能力」,不妨追问:你们理解其来源吗?若答「不完全理解」,至少说明诚实。
我始终认为,「涌现」一词的真正价值不在解释什么,而在于它暴露了我们的无知。我们建造了一个系统,这个系统展现出了我们没有主动编写进去的能力,而且我们不完全理解为什么。这不是一件让人骄傲的事,或者说,不只是一件让人骄傲的事。下次当你看...