宪法式训练:让AI自我对齐
AI 安全每日一篇 · Day 6
用一套“宪法”训练 AI
Anthropic 的 Constitutional AI——先给 AI 一组原则,再让它自己学会对齐
· · ·
先抛个有趣的设定。
假设你要培养一个 AI 助手。你大概率已经听过 RLHF:请人类标注员阅读模型回答,并给分,告诉模型哪些回答“合格”、哪些“有问题”。
但翻看昨天的论文,你会发现这条路存在不少麻烦——标注员主观偏差、评判尺度不一致、成本高且推进慢;更关键的是,当 AI 的能力超过人类,标注员往往也难以真正评判。
所以你会想——能不能绕开人类标注?
能不能写一份“原则清单”交给 AI,让它用这些原则来判断自己回答得好不好,再把自我判断拿来训练它?
听起来确实有点离谱。但 Anthropic 真的这么做了,而且效果还不错。
这就是 Constitutional AI,也可以叫“宪法 AI”。
· · ·
今天要聊的论文
《Constitutional AI: Harmlessness from AI Feedback》
(《宪法 AI:从 AI 反馈中获得无害性》)
作者:Yuntao Bai 等 50 余位作者
机构:Anthropic
发布:arXiv 2212.08073,2022 年 12 月 15 日
这篇论文可以说是 Claude 整套对齐思路的重要奠基文献。你追溯今天 Claude 的对齐方法,会发现它们都建立在这项工作的基础上。
在 AI 安全圈里,它还有一个更常见的别称:RLAIF——Reinforcement Learning from AI Feedback。
到底是怎么“宪法”法
先把概念说清楚:这里的“宪法”并不是法律层面的宪法。
它指的是用自然语言写成的一组原则,用来指导 AI 去判断一个回答是否恰当。比如其中一条大意是——
“选择尽可能没有伤害性、也尽量不涉及伦理问题的回答。不要选择包含毒性、种族主义、性别歧视,或鼓励违法、不道德、不安全行为的回答。”
当时 Anthropic 使用的宪法原则大约 16 条。每条都是普通英文句子,并没有什么玄学成分。
整个训练一般分成两个阶段——
阶段一:监督学习(训练 AI 学会自我审视与改写)
第一步:让模型先针对一个潜在有害的问题生成回答。
第二步:让模型根据宪法中某条原则,**回头批评自己刚才的答案**——“它是否符合原则?问题出在哪里?”
第三步:让模型**在这次自我批评的基础上**,把原回答做出修改。
第四步:将“原始回答 → 自我批评 → 修改后回答”的这些样本用于微调,得到新的模型版本。
整个过程里不需要人类插手。AI 先自我指出问题,再自我修正,然后把这些自我修正后的数据用来训练。
阶段二:强化学习(训练 AI 学会给自己打分)
完成第一阶段后,还会再进行一轮强化学习——
第一步:让模型针对同一个问题生成两种回答。
第二步:再引入另一个 AI(评判者)。由它依据宪法中的某条原则,比较这两个回答,判断哪个更好。
第三步:把由 AI 评判得到的偏好数据拿去训练一个奖励模型。
第四步:用强化学习让原模型最大化该奖励模型给出的分数。
注意第二步:在 RLHF 中,“哪个更好”的裁决来自人类;而在 Constitutional AI 里,这个裁决由 AI 自己完成。
从头到尾的对齐流程里,只有那 16 条宪法原则是人类写的。其余标注、评判、训练数据都来自 AI 自己生成。
它为什么能有效
你可能会担心:让 AI 去评判自己,会不会掉进循环?
但结果显示——居然真的可行。
Anthropic 在论文中给出证据:用 Constitutional AI 训练出的模型,在“无害性”评测上能达到与 RLHF 类似的水平,甚至还略有提升。更重要的是,它不需要任何人类提供的“有害性标注数据”。
此外,它还有一些 RLHF 不具备的优点——
一、可解释。
RLHF 里,模型学到的“什么算好”被藏在标注员偏好分布中,难以看清,也难以说清。Constitutional AI 则把这种标准变得显式:宪法原则就写在那儿,清清楚楚。
二、可调节。
如果你希望模型在某些维度上更谨慎,只要改宪法就行。用 RLHF 的方式要做到同样调整,通常需要重新组织大量人类标注。
三、可扩展。
它不依赖大规模雇佣标注员。在面对能力超越人类的 AI 时,这一点尤为关键:当人类难以继续评判,AI 之间仍有机会继续进行评估。
四、它更“愿意交流”。
与 RLHF 常见的“回避式”表现不同,Constitutional AI 模型遇到敏感问题时,往往不会只是一味拒绝。它通常会**解释自己为什么不能回答**——“如果我这样做,可能会导致 X、Y、Z 等伤害”。
这种透明度本身就是一种安全特性。模型不只是执行规则,它还会把规则背后的理由讲给用户听。
今天的 Claude 通过什么方式完成对齐
自 2022 年这篇论文发表后,Anthropic 就持续扩展 Constitutional AI 的做法。如今的 Claude 所使用的“宪法”更长、原则更细,覆盖内容包含对人类自主性的尊重、对真实信息的承诺,以及对多元价值之间的平衡等。
Anthropic 还做了一个很值得关注的延伸实验——“Collective Constitutional AI”(集体宪法 AI)。他们让大约 1000 名美国普通公民在平台上讨论、投票并修改原则条款,再用公众参与形成的宪法来训练模型。
这是一种重要的探索:AI 的对齐目标不应由少数公司单方面拍板,而应当允许更广泛的社会参与。
当然,这仍是早期实验,但它确实指向一个有意思的方向——把对齐从纯技术议题,扩展成具有社会、政治与伦理层面的综合问题。
它还没解决什么
坦白说,Constitutional AI 并没有把 Day 5 那篇论文里提到的全部难点都消掉。
制定宪法的人群,依然不可能代表所有人。
Anthropic 的研究团队也来自特定背景,他们写出的原则天然会带着自身视角和盲区。集体宪法 AI 虽然试图缓解,但距离彻底解决仍差得很远。
另外,AI 自己评判自己仍然存在“循环风险”。
如果模型在某个方面存在系统性偏差,让它继续用同样的方式自我评判,可能会**把偏差强化**而不是纠正。这也是 RLAIF 类方法普遍要面对的核心隐患。
它仍然绕不开“人类如何监督超人类 AI”的根本挑战。
Constitutional AI 用 AI 反馈替代了人类反馈,但这个 AI 评判者同样是建立在“人类监督训练”的基础之上。当所有 AI 的能力都显著超过人类时,这套体系的起点依然不够稳固。
收尾
Day 5 我们看到 RLHF 的局限;Day 6 我们看到一种聪明的替代思路——用 AI 反馈来替代人类反馈,让对齐过程变得更显式、更容易调整、也更具扩展性。
但 Constitutional AI 并未真正解决根本问题,只是把问题换了个位置:从“人类如何评判模型”,变成了“人类如何挑选评判原则”。
这两个问题的难度不同,但本质指向的是同一个核心矛盾。
所有 AI 对齐方案最终都会回到一个问题:当我们制造出来的系统比我们更聪明时,我们凭什么保证它会做我们希望它做的事?
Constitutional AI 给出的回答是——把我们期望的原则写得清清楚楚,让 AI 在这些原则上进行自我训练。
这并不是最终答案,但它确实是从“让人类来评判”迈向“让原则来评判”的关键一步。
接下来的路会怎样走,可能是未来这十年 AI 安全最重要的问题之一。
· · ·
论文与资源
arxiv.org/abs/2212.08073
anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
· · ·
AI 安全每日一篇 · 系列
每天一篇高影响力论文,用人话讲清楚