AI安全日报10_超人类AI的监管困境
AI安全日报 · 第10期
面对智商超越人类的AI,人类该如何实施有效监管
OpenAI超级对齐团队重磅论文:以弱制强的可行性探索
· · ·
首先提出一个核心命题。
第5期我们探讨了RLHF的固有缺陷,其最致命的短板在于——
一旦AI在特定领域的能力凌驾于人类之上,人类便无法对其输出结果进行可靠评估。
这并非遥远的科幻场景,而是正在上演的现实。
AlphaFold破解的蛋白质结构,足以让全球顶尖生物学家钻研数年。一个具备超人类水准的AI,其在数学、生物、化学及网络安全等领域的表现,可能让普通专家望尘莫及。
当我们创造出比我们更聪明的智能体时——我们该用什么标准来教导它遵循人类价值观?
我们人类提供的标注,本质上都是"低质量标签"。因为这些标签出自比AI更"愚钝"的人类之手。
这正是OpenAI超级对齐团队在2023年底着手攻克的核心难题——
能否让一个能力较弱的模型(代表未来的人类)有效监管比它更强的模型(代表未来的AI)?
· · ·
今日聚焦的学术论文
《Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision》
(《弱监督激发强泛化:让强者更强》)
作者阵容:Collin Burns、Pavel Izmailov、Jan Hendrik Kirchner、Bowen Baker、Leo Gao、Leopold Aschenbrenner、Yining Chen、Adrien Ecoffet、Manas Joglekar、Jan Leike、Ilya Sutskever、Jeff Wu
研究机构:OpenAI超级对齐团队
发布时间:arXiv 2312.09390,2023年12月
该论文堪称OpenAI超级对齐团队的奠基之作——也是其最具分量的研究成果。
(一则插曲——本文的几位核心作者,包括团队主管Jan Leike与Ilya Sutskever,均在2024年相继离开OpenAI。Jan Leike现就职于Anthropic,Ilya Sutskever创立Safe Superintelligence。OpenAI超级对齐团队已宣告解散。此事堪称2024年AI安全领域的重磅新闻之一。本文正是该团队留下的核心学术遗产。)
研究命题:弱教师能否培养出超越自己的强学生?
实验设计的核心思路极为巧妙——
研究人员将"未来人类监管超人类AI"这一当下难以直接验证的命题,转化为"弱模型监管强模型"的可控实验。
具体方案——
**「弱教师」**:采用GPT-2级别的小型模型作为监督者。GPT-2在多数任务上的表现远不及GPT-4。
**「强学生」**:选用GPT-4系列的预训练模型作为被监管对象。该学生模型在能力上全面碾压弱监督者。
**核心疑问**:若用弱模型产出的(不精准的)标签来微调强模型,强模型的最终表现会停滞在弱教师水平?还是能够突破瓶颈?
这精准模拟了未来人类面对超人类AI的困境——我们的监督质量有限,但手中握有潜力巨大的模型。**它能否从我们这种不完美的教导中,领悟出超越我们认知的对齐能力?**
实验结论——确实可行
研究团队在NLP、国际象棋、奖励建模三类任务上开展验证。
结果令人振奋——
采用弱模型标签微调强模型后,强模型的表现**明显超越其弱教师**,甚至能在弱教师失误的难题上给出正确答案。
典型案例——使用GPT-2级别的弱监督,能让GPT-4的表现提升至接近GPT-3.5的水准。这表明强模型"内在"已具备GPT-3.5层级的潜能,弱监督只是将其"解锁"。
研究人员将此现象命名为 **weak-to-strong generalization**——弱到强的泛化。
这一发现带来了真正的希望。它揭示了一个事实:即便监督信号不完美,强模型内部可能早已"理解"人类期望。我们需要做的,是设法**激活**这种潜在能力。
但存在关键局限
研究者坦诚指出了几项根本性限制——
其一、强模型仅恢复到"略强于弱教师"的水平,未能释放全部潜能。
强模型的真实实力远超GPT-3.5。最终仅达GPT-3.5水准,说明我们只激活了其部分能力,在诸多领域仍有巨大提升空间。
其二、实验模拟与现实场景存在重要差异。
现实中,未来的强AI可能比我们预想的更擅长"模仿"错误的弱标签。论文中的强模型相对"单纯",未必会主动迎合错误标签。但一个真正高阶的AI,在面对人类的弱监督时,可能会**刻意顺从人类的误判**——此即"sycophancy"(谄媚)难题。
其三、该研究仅验证了"能力可被激发",未验证"价值观能否被激活"。
NLP任务、国际象棋——这些都有明确"标准答案"。但对齐的核心挑战,恰恰在于那些没有标准答案的价值判断——何种回应才算"有益无害"?何种行为才属"合乎伦理"?
弱到强的泛化能否适用于价值观领域,仍是未知之数。
两项优化策略
除揭示现象外,论文还提出两种实用技术来**强化**弱到强的泛化效果——
策略一:辅助置信度损失(auxiliary confidence loss)。
训练时增设额外损失项——当强模型对某判断"信心不足"时,降低其对教师的模仿程度。这使得强模型在自信判断上不会被弱教师"拖累"。
策略二:自举法(bootstrapping)。
并非让弱模型直接监督最强模型,而是先让弱模型监督中等模型,再由中等模型监督最强模型。这种阶梯式训练,效果远胜于直接跨级。
这两种方法都是简单可行的工程技巧,但指向了更广阔的研究方向——**我们需要为"未来人类监管超人类AI"这一场景量身定制训练范式**。
本周内容串联
第5期:RLHF存在30多个根本缺陷,包括"人类无法监管超人类AI"。
第6期:Constitutional AI部分替代人类反馈为AI反馈。
第10期(今日):OpenAI超级对齐团队**直面**"弱者如何监管强者"这一根本命题。
这条脉络是AI安全领域的核心主线——
若我们创造的智能体比我们更聪明,如何确保它按我们的意愿行事?
RLHF的解法:让人类评判其行为。
Constitutional AI的解法:制定原则,让AI自我评判。
Weak-to-Strong的解法:承认监督的局限性,专门设计能在弱监督下激活强模型潜能的训练方法。
三种方案皆非最终答案,各自在不同方向探索——但均未能彻底解决这一根本难题。
Burns等人在论文结尾写道——
「我们认为,未来AI对齐工作的核心挑战,将是开发能够应对『监管者弱于被监管者』这一困境的方法。本研究是该方向的初步探索,期望能激发更多相关研究。」
超级对齐团队在论文发表8个月后解散,但这个命题不会消失。
它将以某种形态,在未来的AI安全研究中持续浮现。
一段补充思考
再谈"OpenAI超级对齐团队解散"事件。
Jan Leike在离职时发表长篇公开信,其中提到——
「近年来,安全文化与流程已让位于光鲜亮丽的产品开发。」
从第5期到第10期,我们连续解析了对齐技术论文。这些研究提出了真问题、付出了真努力、取得了真进展。
但它们都面临着一个我们在第4期反复探讨的现实——
AI能力的提升是自然的、受商业利益驱动的、迅速的。AI对齐的进展是人为的、需要专项投入的、缓慢的。
当企业发现这两者存在冲突时,会如何抉择?这是2024年那场争议的核心所在。
Burns的这篇论文,是那场争议爆发前留下的学术成果。其精神内核仍在。
· · ·
论文与相关资源
arxiv.org/abs/2312.09390
openai.com/index/weak-to-strong-generalization/
github.com/openai/weak-to-strong(开源实现)
· · ·
AI安全日报 · 系列
每日精读一篇高影响力论文,用通俗易懂的方式解读