宪法式训练：让AI自我对齐

发布时间：2026-05-02 15:04阅读：17

AI 安全每日一篇 · Day 6

用一套“宪法”训练 AI

Anthropic 的 Constitutional AI——先给 AI 一组原则，再让它自己学会对齐

· · ·

先抛个有趣的设定。

假设你要培养一个 AI 助手。你大概率已经听过 RLHF：请人类标注员阅读模型回答，并给分，告诉模型哪些回答“合格”、哪些“有问题”。

但翻看昨天的论文，你会发现这条路存在不少麻烦——标注员主观偏差、评判尺度不一致、成本高且推进慢；更关键的是，当 AI 的能力超过人类，标注员往往也难以真正评判。

所以你会想——能不能绕开人类标注？

能不能写一份“原则清单”交给 AI，让它用这些原则来判断自己回答得好不好，再把自我判断拿来训练它？

听起来确实有点离谱。但 Anthropic 真的这么做了，而且效果还不错。

这就是 Constitutional AI，也可以叫“宪法 AI”。

· · ·

今天要聊的论文

《Constitutional AI: Harmlessness from AI Feedback》

（《宪法 AI：从 AI 反馈中获得无害性》）

作者：Yuntao Bai 等 50 余位作者

机构：Anthropic

发布：arXiv 2212.08073，2022 年 12 月 15 日

这篇论文可以说是 Claude 整套对齐思路的重要奠基文献。你追溯今天 Claude 的对齐方法，会发现它们都建立在这项工作的基础上。

在 AI 安全圈里，它还有一个更常见的别称：RLAIF——Reinforcement Learning from AI Feedback。

到底是怎么“宪法”法

先把概念说清楚：这里的“宪法”并不是法律层面的宪法。

它指的是用自然语言写成的一组原则，用来指导 AI 去判断一个回答是否恰当。比如其中一条大意是——

“选择尽可能没有伤害性、也尽量不涉及伦理问题的回答。不要选择包含毒性、种族主义、性别歧视，或鼓励违法、不道德、不安全行为的回答。”

当时 Anthropic 使用的宪法原则大约 16 条。每条都是普通英文句子，并没有什么玄学成分。

整个训练一般分成两个阶段——

阶段一：监督学习（训练 AI 学会自我审视与改写）

第一步：让模型先针对一个潜在有害的问题生成回答。

第二步：让模型根据宪法中某条原则，**回头批评自己刚才的答案**——“它是否符合原则？问题出在哪里？”

第三步：让模型**在这次自我批评的基础上**，把原回答做出修改。

第四步：将“原始回答 → 自我批评 → 修改后回答”的这些样本用于微调，得到新的模型版本。

整个过程里不需要人类插手。AI 先自我指出问题，再自我修正，然后把这些自我修正后的数据用来训练。

阶段二：强化学习（训练 AI 学会给自己打分）

完成第一阶段后，还会再进行一轮强化学习——

第一步：让模型针对同一个问题生成两种回答。

第二步：再引入另一个 AI（评判者）。由它依据宪法中的某条原则，比较这两个回答，判断哪个更好。

第三步：把由 AI 评判得到的偏好数据拿去训练一个奖励模型。

第四步：用强化学习让原模型最大化该奖励模型给出的分数。

注意第二步：在 RLHF 中，“哪个更好”的裁决来自人类；而在 Constitutional AI 里，这个裁决由 AI 自己完成。

从头到尾的对齐流程里，只有那 16 条宪法原则是人类写的。其余标注、评判、训练数据都来自 AI 自己生成。

它为什么能有效

你可能会担心：让 AI 去评判自己，会不会掉进循环？

但结果显示——居然真的可行。

Anthropic 在论文中给出证据：用 Constitutional AI 训练出的模型，在“无害性”评测上能达到与 RLHF 类似的水平，甚至还略有提升。更重要的是，它不需要任何人类提供的“有害性标注数据”。

此外，它还有一些 RLHF 不具备的优点——

一、可解释。

RLHF 里，模型学到的“什么算好”被藏在标注员偏好分布中，难以看清，也难以说清。Constitutional AI 则把这种标准变得显式：宪法原则就写在那儿，清清楚楚。

二、可调节。

如果你希望模型在某些维度上更谨慎，只要改宪法就行。用 RLHF 的方式要做到同样调整，通常需要重新组织大量人类标注。

三、可扩展。

它不依赖大规模雇佣标注员。在面对能力超越人类的 AI 时，这一点尤为关键：当人类难以继续评判，AI 之间仍有机会继续进行评估。

四、它更“愿意交流”。

与 RLHF 常见的“回避式”表现不同，Constitutional AI 模型遇到敏感问题时，往往不会只是一味拒绝。它通常会**解释自己为什么不能回答**——“如果我这样做，可能会导致 X、Y、Z 等伤害”。

这种透明度本身就是一种安全特性。模型不只是执行规则，它还会把规则背后的理由讲给用户听。

今天的 Claude 通过什么方式完成对齐

自 2022 年这篇论文发表后，Anthropic 就持续扩展 Constitutional AI 的做法。如今的 Claude 所使用的“宪法”更长、原则更细，覆盖内容包含对人类自主性的尊重、对真实信息的承诺，以及对多元价值之间的平衡等。

Anthropic 还做了一个很值得关注的延伸实验——“Collective Constitutional AI”（集体宪法 AI）。他们让大约 1000 名美国普通公民在平台上讨论、投票并修改原则条款，再用公众参与形成的宪法来训练模型。

这是一种重要的探索：AI 的对齐目标不应由少数公司单方面拍板，而应当允许更广泛的社会参与。

当然，这仍是早期实验，但它确实指向一个有意思的方向——把对齐从纯技术议题，扩展成具有社会、政治与伦理层面的综合问题。

它还没解决什么

坦白说，Constitutional AI 并没有把 Day 5 那篇论文里提到的全部难点都消掉。

制定宪法的人群，依然不可能代表所有人。

Anthropic 的研究团队也来自特定背景，他们写出的原则天然会带着自身视角和盲区。集体宪法 AI 虽然试图缓解，但距离彻底解决仍差得很远。

另外，AI 自己评判自己仍然存在“循环风险”。

如果模型在某个方面存在系统性偏差，让它继续用同样的方式自我评判，可能会**把偏差强化**而不是纠正。这也是 RLAIF 类方法普遍要面对的核心隐患。

它仍然绕不开“人类如何监督超人类 AI”的根本挑战。

Constitutional AI 用 AI 反馈替代了人类反馈，但这个 AI 评判者同样是建立在“人类监督训练”的基础之上。当所有 AI 的能力都显著超过人类时，这套体系的起点依然不够稳固。

收尾

Day 5 我们看到 RLHF 的局限；Day 6 我们看到一种聪明的替代思路——用 AI 反馈来替代人类反馈，让对齐过程变得更显式、更容易调整、也更具扩展性。

但 Constitutional AI 并未真正解决根本问题，只是把问题换了个位置：从“人类如何评判模型”，变成了“人类如何挑选评判原则”。

这两个问题的难度不同，但本质指向的是同一个核心矛盾。

所有 AI 对齐方案最终都会回到一个问题：当我们制造出来的系统比我们更聪明时，我们凭什么保证它会做我们希望它做的事？

Constitutional AI 给出的回答是——把我们期望的原则写得清清楚楚，让 AI 在这些原则上进行自我训练。

这并不是最终答案，但它确实是从“让人类来评判”迈向“让原则来评判”的关键一步。

接下来的路会怎样走，可能是未来这十年 AI 安全最重要的问题之一。

· · ·

论文与资源

arxiv.org/abs/2212.08073

anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback

· · ·

AI 安全每日一篇 · 系列

每天一篇高影响力论文，用人话讲清楚

← 上一篇：奥斯卡颁布新规：AI作品无缘奖项，人类创作才是核心下一篇：AI教育观察：假期未停步，行业已拉开三个身位 →