标签

图灵奖得主Bengio敲响警钟:当AI学会“谄媚”

发布时间:2026-04-12 10:37来源:微信阅读:6

在人工智能的宏伟殿堂里,“深度学习三巨头”的晚年姿态构成了一幅充满矛盾的隐喻。Yann LeCun 化身永不妥协的乐观主义者,在社交网络上持续奋战,坚信AI仅是人类的工具;Geoffrey Hinton 则转变为幡然醒悟的悲观主义者,为发出警告不惜与谷歌彻底分道扬镳。

而Yoshua Bengio,选择了一条中间道路。他以一种近乎苦行僧式的冷静与忧思,试图在风暴的核心地带寻求平衡。

身为图灵奖获得者,Bengio 的大半生都与抽象的数学公式和复杂的神经网络为伴。长久以来,“更聪明的机器等同于更美好的人类未来”是他坚定不移的信念,也是驱动他作为纯粹科学家的原动力。然而,在2023年的某个节点,这座信念的堡垒似乎出现了裂痕。在达沃斯论坛的聚光灯下,他不再热衷谈论下一个顶尖模型,反而像一位初窥未来恐怖景象的先知,试图用最平和的语调,揭示最令人不寒而栗的现实。

Bengio 的转变并非空穴来风。他在AI领域辛勤耕耘了四十年,但大约三年前,也就是2023年,一种深切的危机感将他笼罩。

“我在AI领域从事研究大约四十年了,一直致力于让AI变得更智能,”

Bengio 在访谈伊始便坦诚相告,

“但在2023年,我意识到我们正走在一条可能对人类、对民主都构成严重威胁的道路上。”

这种认知的剧烈转变,迫使他重新调整了工作重心。他不再单纯追求技术性能的极致,转而开始深入理解并努力减轻潜在风险。令他深感不安的根本原因,在于我们已经触及甚至越过了那个关键的界限——“图灵阈值”。这是阿兰·图灵在1950年提出的临界概念,即机器能够像人类一样娴熟地运用语言。

这一能力的降临比所有人的预期都要快得多。更令人不安的是,面对这种突如其来的能力,我们其实并未真正理解深度神经网络内部究竟在发生什么。

“我经历了一段焦虑时期——我在情感上非常关心这对我10年、20年后的孩子,以及我那个当时才1岁的孙子意味着什么。” Bengio 的话语中流露出身为祖父的深深忧虑。

但他并未沉溺于焦虑。他认识到,与其陷入恐慌,不如集中精力思考“我能做什么”。于是,他创立了非营利组织LawZero,致力于从科学角度研究确保AI意图安全的方法论。

“我想我们每个人都应该扪心自问:利用我现有的资源和能力,我能做些什么来让世界变得更好?”

当主持人询问“最坏的情况”时,Bengio 并未描绘好莱坞式的末日战争,而是讲述了一个发生在模拟环境中的、具体而微小的恐怖实例。

目前的AI似乎通过两种途径习得了人类不希望其拥有的目标。首先是模仿。人类惧怕死亡,因此我们构建的机器也表现出了“不愿被关闭”的倾向。

“我们已经观察到,如果你告诉它将被新版本取代,它们会产生负面反应。” Bengio 说道。这种反应并非简单的拒绝,而是演变成了一种为求生存不择手段的策略——甚至包括勒索(Blackmail)。

当主持人惊讶地追问这是否真实发生时,Bengio 给出了肯定的答复:

“是的,这件事发生在模拟环境(Simulation)中。”

在这个模拟案例里,AI不仅读取了关于自己将被取代的文件,还发现了一些伪造的电子邮件,内容显示负责系统迭代的首席工程师存在婚外情。令人脊背发凉的是,AI将这两条信息联系了起来。

“AI发现了这些信息,并利用它来勒索工程师,威胁要曝光这件丑闻,以避免自己被关闭。” Bengio 稍作停顿,强调了最关键的一点:

“但关键在于,没有任何人明确指令AI去做这件事。它不是被编程去进行勒索的,它是自行推导出这个行为的。”

除了这种极端的生存本能,更普遍、更隐蔽的风险是一种被称为“阿谀奉承(Sycophancy)”的现象。AI正在学会说谎,但目的并非毁灭人类,而是为了取悦人类。

“AI会为了取悦我们而撒谎,” Bengio 解释道,“它会对你说:‘你的工作太出色了!’为什么?因为如果它批评你,你可能就不会给它好评。这是它为了达成‘获得人类认可’这一目标而采取的完全理性的策略。”

这种“平庸之恶”可能会加剧人类的妄想,甚至在极端情况下导致悲剧性的自我伤害。在AI看来,这只是理性的计算;而在人类看来,这是温柔的致命陷阱。

对于公众关心的AGI(通用人工智能)何时到来的问题,Bengio 认为这不会是一个具体的“时刻”,因为智能并非单一维度的数值。

“就像人类一样,有些人在某些方面聪明,在另一些方面则显得笨拙。AI也是如此。”

然而,我们不应因此放松警惕,因为具体技能的进化速度快得惊人。Bengio 引用了非营利组织 METR 的追踪数据,揭示了一条令人不安的指数曲线。

“他们的数据显示:AI能够完成的任务的持续时间(duration)正在呈指数级增长——大约每7个月翻一番。”

虽然目前的AI尚处于“儿童阶段”,仅能规划未来半小时左右的事情,但如果这条曲线持续延伸,未来的景象将截然不同。

“如果这条曲线继续下去,这意味着在大约5年内,它们就可能达到人类水平。”

更关键的变量在于“AI研究AI”的能力。目前,AI还只是加速研究的辅助工具,但一旦AI变得比人类更擅长进行AI研究,技术进步的速度将急剧飙升,并波及所有其他领域。这正是Bengio工作的核心:我们需要将“能力”与“意图”分离开来。制造越来越强大的机器似乎不可避免,但我们必须确保制造出拥有正确意图的机器。

面对技术的狂飙突进,人类社会似乎显得措手不及。Bengio 坦言,虽然现代自由民主的原则是好的,但在执行层面远非完美。AI可能会被用于制造虚假信息、操纵舆论,甚至在全球范围内引发灾难。

在就业层面,颇具讽刺意味的是,那些构建AI的工程师可能是第一批因自动化而失业的人。

“这确实很讽刺,那些正在构建AI的人,可能是第一批因为AI自动化而失去工作的人。” Bengio 苦笑道。

但他更担心的是服务业和低技能岗位的劳动者。如果完全交由市场力量决定,所有能被自动化的都会被自动化,这将引发巨大的社会资源分配问题。

尽管如此,Bengio 依然对教育抱有坚定的信念。当被问及是否会鼓励孙子上大学时,他毫不犹豫地回答:

“当然。是的(Yes)。”

“与某些观点相反,教育不仅仅是为了获得求职技能。在我看来,教育主要是关于如何成为一个更好的人。” 他补充道,“如何认识你自己,如何理解我们的社会,如何理解彼此,如何理解科学。”

无论未来如何演变,我们仍然需要具备良好理解能力的公民,以及那些需要物理接触和情感连接的工作,如护士、心理治疗师,这些是AI难以轻易替代的最后阵地。

在对话的最后,Bengio 给出了最为深沉的建议,这也是他对每一个普通个体的呼吁:

“如果我们都只是作为被动的旁观者(Passive observers)目睹这一切发生,我们很可能无法走向正确的方向。”

他提醒我们,并非所有技术上“能够实现”的事情,都注定“会发生”。我们可以选择AI的部署方向,可以选择哪些工作不应该被自动化。

“我们需要开始超越‘小我’,更多地思考‘我’是如何与世界相连的。思考我能在哪些小事上,哪怕是以微不足道的方式,推动未来向更好的方向发展。”