宪法式训练:让AI自我对齐
AI 安全每日一篇 · Day 6用一套“宪法”训练 AIAnthropic 的 Constitutional AI——先给 AI 一组原则,再让它自己学会对齐· · ·先抛个有趣的设定。假设你要培养一个 AI 助手。你大概率已经听过 RLHF:请人类标注员阅读模型回答,并给分,告诉模型哪些回答“合格”、哪些“有问题”。但翻看昨天的论文,你会发现这条路存在不少麻烦——标注员主观偏差、评判尺度不一致、成本高且推进慢;更关键的是,当 AI 的能力超过人类,标注员往往也难以真正评判。所以你会想——能不能绕开人类