标签

宪法式训练:让AI自我对齐

发布时间:2026-05-02 15:04来源:微信阅读:9

AI 安全每日一篇 · Day 6

用一套“宪法”训练 AI

Anthropic 的 Constitutional AI——先给 AI 一组原则,再让它自己学会对齐

· · ·

先抛个有趣的设定。

假设你要培养一个 AI 助手。你大概率已经听过 RLHF:请人类标注员阅读模型回答,并给分,告诉模型哪些回答“合格”、哪些“有问题”。

但翻看昨天的论文,你会发现这条路存在不少麻烦——标注员主观偏差、评判尺度不一致、成本高且推进慢;更关键的是,当 AI 的能力超过人类,标注员往往也难以真正评判。

所以你会想——能不能绕开人类标注?

能不能写一份“原则清单”交给 AI,让它用这些原则来判断自己回答得好不好,再把自我判断拿来训练它?

听起来确实有点离谱。但 Anthropic 真的这么做了,而且效果还不错。

这就是 Constitutional AI,也可以叫“宪法 AI”。

· · ·

今天要聊的论文

《Constitutional AI: Harmlessness from AI Feedback》

(《宪法 AI:从 AI 反馈中获得无害性》)

作者:Yuntao Bai 等 50 余位作者

机构:Anthropic

发布:arXiv 2212.08073,2022 年 12 月 15 日

这篇论文可以说是 Claude 整套对齐思路的重要奠基文献。你追溯今天 Claude 的对齐方法,会发现它们都建立在这项工作的基础上。

在 AI 安全圈里,它还有一个更常见的别称:RLAIF——Reinforcement Learning from AI Feedback。

到底是怎么“宪法”法

先把概念说清楚:这里的“宪法”并不是法律层面的宪法。

它指的是用自然语言写成的一组原则,用来指导 AI 去判断一个回答是否恰当。比如其中一条大意是——

“选择尽可能没有伤害性、也尽量不涉及伦理问题的回答。不要选择包含毒性、种族主义、性别歧视,或鼓励违法、不道德、不安全行为的回答。”

当时 Anthropic 使用的宪法原则大约 16 条。每条都是普通英文句子,并没有什么玄学成分。

整个训练一般分成两个阶段——

阶段一:监督学习(训练 AI 学会自我审视与改写)

第一步:让模型先针对一个潜在有害的问题生成回答。

第二步:让模型根据宪法中某条原则,**回头批评自己刚才的答案**——“它是否符合原则?问题出在哪里?”

第三步:让模型**在这次自我批评的基础上**,把原回答做出修改。

第四步:将“原始回答 → 自我批评 → 修改后回答”的这些样本用于微调,得到新的模型版本。

整个过程里不需要人类插手。AI 先自我指出问题,再自我修正,然后把这些自我修正后的数据用来训练。

阶段二:强化学习(训练 AI 学会给自己打分)

完成第一阶段后,还会再进行一轮强化学习——

第一步:让模型针对同一个问题生成两种回答。

第二步:再引入另一个 AI(评判者)。由它依据宪法中的某条原则,比较这两个回答,判断哪个更好。

第三步:把由 AI 评判得到的偏好数据拿去训练一个奖励模型。

第四步:用强化学习让原模型最大化该奖励模型给出的分数。

注意第二步:在 RLHF 中,“哪个更好”的裁决来自人类;而在 Constitutional AI 里,这个裁决由 AI 自己完成。

从头到尾的对齐流程里,只有那 16 条宪法原则是人类写的。其余标注、评判、训练数据都来自 AI 自己生成。

它为什么能有效

你可能会担心:让 AI 去评判自己,会不会掉进循环?

但结果显示——居然真的可行。

Anthropic 在论文中给出证据:用 Constitutional AI 训练出的模型,在“无害性”评测上能达到与 RLHF 类似的水平,甚至还略有提升。更重要的是,它不需要任何人类提供的“有害性标注数据”。

此外,它还有一些 RLHF 不具备的优点——

一、可解释。

RLHF 里,模型学到的“什么算好”被藏在标注员偏好分布中,难以看清,也难以说清。Constitutional AI 则把这种标准变得显式:宪法原则就写在那儿,清清楚楚。

二、可调节。

如果你希望模型在某些维度上更谨慎,只要改宪法就行。用 RLHF 的方式要做到同样调整,通常需要重新组织大量人类标注。

三、可扩展。

它不依赖大规模雇佣标注员。在面对能力超越人类的 AI 时,这一点尤为关键:当人类难以继续评判,AI 之间仍有机会继续进行评估。

四、它更“愿意交流”。

与 RLHF 常见的“回避式”表现不同,Constitutional AI 模型遇到敏感问题时,往往不会只是一味拒绝。它通常会**解释自己为什么不能回答**——“如果我这样做,可能会导致 X、Y、Z 等伤害”。

这种透明度本身就是一种安全特性。模型不只是执行规则,它还会把规则背后的理由讲给用户听。

今天的 Claude 通过什么方式完成对齐

自 2022 年这篇论文发表后,Anthropic 就持续扩展 Constitutional AI 的做法。如今的 Claude 所使用的“宪法”更长、原则更细,覆盖内容包含对人类自主性的尊重、对真实信息的承诺,以及对多元价值之间的平衡等。

Anthropic 还做了一个很值得关注的延伸实验——“Collective Constitutional AI”(集体宪法 AI)。他们让大约 1000 名美国普通公民在平台上讨论、投票并修改原则条款,再用公众参与形成的宪法来训练模型。

这是一种重要的探索:AI 的对齐目标不应由少数公司单方面拍板,而应当允许更广泛的社会参与。

当然,这仍是早期实验,但它确实指向一个有意思的方向——把对齐从纯技术议题,扩展成具有社会、政治与伦理层面的综合问题。

它还没解决什么

坦白说,Constitutional AI 并没有把 Day 5 那篇论文里提到的全部难点都消掉。

制定宪法的人群,依然不可能代表所有人。

Anthropic 的研究团队也来自特定背景,他们写出的原则天然会带着自身视角和盲区。集体宪法 AI 虽然试图缓解,但距离彻底解决仍差得很远。

另外,AI 自己评判自己仍然存在“循环风险”。

如果模型在某个方面存在系统性偏差,让它继续用同样的方式自我评判,可能会**把偏差强化**而不是纠正。这也是 RLAIF 类方法普遍要面对的核心隐患。

它仍然绕不开“人类如何监督超人类 AI”的根本挑战。

Constitutional AI 用 AI 反馈替代了人类反馈,但这个 AI 评判者同样是建立在“人类监督训练”的基础之上。当所有 AI 的能力都显著超过人类时,这套体系的起点依然不够稳固。

收尾

Day 5 我们看到 RLHF 的局限;Day 6 我们看到一种聪明的替代思路——用 AI 反馈来替代人类反馈,让对齐过程变得更显式、更容易调整、也更具扩展性。

但 Constitutional AI 并未真正解决根本问题,只是把问题换了个位置:从“人类如何评判模型”,变成了“人类如何挑选评判原则”。

这两个问题的难度不同,但本质指向的是同一个核心矛盾。

所有 AI 对齐方案最终都会回到一个问题:当我们制造出来的系统比我们更聪明时,我们凭什么保证它会做我们希望它做的事?

Constitutional AI 给出的回答是——把我们期望的原则写得清清楚楚,让 AI 在这些原则上进行自我训练。

这并不是最终答案,但它确实是从“让人类来评判”迈向“让原则来评判”的关键一步。

接下来的路会怎样走,可能是未来这十年 AI 安全最重要的问题之一。

· · ·

论文与资源

arxiv.org/abs/2212.08073

anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback

· · ·

AI 安全每日一篇 · 系列

每天一篇高影响力论文,用人话讲清楚