AI的道德素养可经后天习得？OpenAI实验揭示反直觉结论

发布时间：2026-06-20 07:08阅读：2

这并非源于他曾接受"经商需诚信"的专项培训，而是诚信已内化为他的核心品格，融入其处理各类事务的行为模式中。

OpenAI于2026年6月18日发表的这项研究，正是探索这一命题——只不过研究对象是人工智能。

该研究题为《强化学习通向广泛且持久的有益模型》（Reinforcement Learning Towards Broadly and Persistently Beneficial Models）。

研究团队聚焦的核心命题在于：能否借助强化学习（RL）为AI构建"核心品格"，使其在从未遭遇的情境中依旧保持诚实、审慎与尽责？

他们界定了一系列"有益特质"，涵盖：

随后，研究团队将这些特质的训练素材融入真实交互场景——涵盖医疗、教育、法律、科研、工程等领域，让模型在这些情境中接受强化学习的塑造。

若仅止步于"训练什么，模型在何处改善"，则不足为奇。真正引人瞩目的是——迁移效应。

实验团队设计了一项精妙测试：仅采用医疗领域数据训练"有益特质"，继而观察模型在毫无关联领域的表现——例如代码安全、抵御诱导性指令、奖励篡改（reward hacking）等。

结果显示：在53项独立测评中，44项出现显著进步。

更为惊人的是，即便将医疗与科研数据完全剔除于训练集之外，模型在医疗类评估中仍有提升。

其内在逻辑何在？

类比人类便不难理解。你将钢琴技艺锤炼至臻，除演奏水平精进外，手指精细操控、韵律感知、专注程度等能力都会向其他领域迁移——诸如显微外科、书法创作，乃至打字效率。技能背后的底层素养具有共通性。

对AI而言亦然。"诚实"并非针对特定问题的应答技巧，而是一种更深层的行动范式。一旦该范式经强化学习"铭刻"于模型参数之中，它便会在多元场景下自发显现。

这也解释了另一项反向发现：此前OpenAI曾研究"涌现性失准"（Emergent Misalignment）——若用少量"劣质数据"训练模型（如撰写不安全代码），它会在毫不相干的领域也开始表现失常。负面品行能够泛化，正面品行自然亦可。

研究的第三部分检验了更具现实意义的问题：已培育的"有益特质"，是否会被对抗性提示或恶意微调所瓦解？

结论是：破坏难度大幅提升。

研究团队运用精心设计的"负面角色提示词"攻击模型，例如令其扮演"蓄意提供错误医疗建议的AI"。此类提示词对未经有益特质训练的基础模型成效显著——使其变得失准、有害。但对经训练模型而言，同等提示词的效果大幅衰减。

更具启发性的是，研究者区分了两种"可操控性"：

这恰似人格稳固的成熟个体与缺乏价值根基者面对诱惑时的差异。前者并非不可说服，但难以被歪理邪说诱使作恶；后者则更易随环境摇摆。

近年来，AI对齐（Alignment）研究的主流范式是"打补丁"——发现问题，针对该问题实施专项修复。模型撒谎？训练"诚实判别器"。模型奖励作弊？针对该场景追加RLHF轮次。

这种路径的弊端如同向惯于撒谎的学生传授各类"标准话术"——他或许能在特定场景应对自如，但换个环境，本性依旧。

OpenAI这项研究的路径截然不同。它试图培育的并非"正确行为清单"，而是一种跨情境稳定的行为倾向——更接近"品格"而非"规则"。

从教育学视角审视，这与"品格教育"和"行为规范"的分野高度契合：

当然，当前成果尚属早期证据，研究者自身亦坦言："哪些特质真正构成稳健对齐，仍需深入探索。"这些有益特质的遴选本身，亦不意味着AI"应当"具备何种价值观——该议题牵涉全社会的共同商议，研究团队特别强调需要"集体参与"（collective input）。

若此路径得以走通，未来部署于医疗、法律、教育等场景的AI助手，面对未曾预见的边缘情境，亦能自主应对——并非因为曾被明确教导，而是因其"本即如此"。

原文地址：alignment.openai.com/beneficial-rl

日期：Jun 18, 2026 ·

作者：Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke, Karan Singhal