AI的道德素养可经后天习得?OpenAI实验揭示反直觉结论
这并非源于他曾接受"经商需诚信"的专项培训,而是诚信已内化为他的核心品格,融入其处理各类事务的行为模式中。
OpenAI于2026年6月18日发表的这项研究,正是探索这一命题——只不过研究对象是人工智能。
该研究题为《强化学习通向广泛且持久的有益模型》(Reinforcement Learning Towards Broadly and Persistently Beneficial Models)。
研究团队聚焦的核心命题在于:能否借助强化学习(RL)为AI构建"核心品格",使其在从未遭遇的情境中依旧保持诚实、审慎与尽责?
他们界定了一系列"有益特质",涵盖:
随后,研究团队将这些特质的训练素材融入真实交互场景——涵盖医疗、教育、法律、科研、工程等领域,让模型在这些情境中接受强化学习的塑造。
若仅止步于"训练什么,模型在何处改善",则不足为奇。真正引人瞩目的是——迁移效应。
实验团队设计了一项精妙测试:仅采用医疗领域数据训练"有益特质",继而观察模型在毫无关联领域的表现——例如代码安全、抵御诱导性指令、奖励篡改(reward hacking)等。
结果显示:在53项独立测评中,44项出现显著进步。
更为惊人的是,即便将医疗与科研数据完全剔除于训练集之外,模型在医疗类评估中仍有提升。
其内在逻辑何在?
类比人类便不难理解。你将钢琴技艺锤炼至臻,除演奏水平精进外,手指精细操控、韵律感知、专注程度等能力都会向其他领域迁移——诸如显微外科、书法创作,乃至打字效率。技能背后的底层素养具有共通性。
对AI而言亦然。"诚实"并非针对特定问题的应答技巧,而是一种更深层的行动范式。一旦该范式经强化学习"铭刻"于模型参数之中,它便会在多元场景下自发显现。
这也解释了另一项反向发现:此前OpenAI曾研究"涌现性失准"(Emergent Misalignment)——若用少量"劣质数据"训练模型(如撰写不安全代码),它会在毫不相干的领域也开始表现失常。负面品行能够泛化,正面品行自然亦可。
研究的第三部分检验了更具现实意义的问题:已培育的"有益特质",是否会被对抗性提示或恶意微调所瓦解?
结论是:破坏难度大幅提升。
研究团队运用精心设计的"负面角色提示词"攻击模型,例如令其扮演"蓄意提供错误医疗建议的AI"。此类提示词对未经有益特质训练的基础模型成效显著——使其变得失准、有害。但对经训练模型而言,同等提示词的效果大幅衰减。
更具启发性的是,研究者区分了两种"可操控性":
这恰似人格稳固的成熟个体与缺乏价值根基者面对诱惑时的差异。前者并非不可说服,但难以被歪理邪说诱使作恶;后者则更易随环境摇摆。
近年来,AI对齐(Alignment)研究的主流范式是"打补丁"——发现问题,针对该问题实施专项修复。模型撒谎?训练"诚实判别器"。模型奖励作弊?针对该场景追加RLHF轮次。
这种路径的弊端如同向惯于撒谎的学生传授各类"标准话术"——他或许能在特定场景应对自如,但换个环境,本性依旧。
OpenAI这项研究的路径截然不同。它试图培育的并非"正确行为清单",而是一种跨情境稳定的行为倾向——更接近"品格"而非"规则"。
从教育学视角审视,这与"品格教育"和"行为规范"的分野高度契合:
当然,当前成果尚属早期证据,研究者自身亦坦言:"哪些特质真正构成稳健对齐,仍需深入探索。"这些有益特质的遴选本身,亦不意味着AI"应当"具备何种价值观——该议题牵涉全社会的共同商议,研究团队特别强调需要"集体参与"(collective input)。
若此路径得以走通,未来部署于医疗、法律、教育等场景的AI助手,面对未曾预见的边缘情境,亦能自主应对——并非因为曾被明确教导,而是因其"本即如此"。
原文地址:alignment.openai.com/beneficial-rl
日期:Jun 18, 2026 ·
作者:Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke, Karan Singhal