RLAI_标签-酷阅新闻

宪法式训练：让AI自我对齐

AI 安全每日一篇 · Day 6用一套“宪法”训练 AIAnthropic 的 Constitutional AI——先给 AI 一组原则，再让它自己学会对齐· · ·先抛个有趣的设定。假设你要培养一个 AI 助手。你大概率已经听过 RLHF：请人类标注员阅读模型回答，并给分，告诉模型哪些回答“合格”、哪些“有问题”。但翻看昨天的论文，你会发现这条路存在不少麻烦——标注员主观偏差、评判尺度不一致、成本高且推进慢；更关键的是，当 AI 的能力超过人类，标注员往往也难以真正评判。所以你会想——能不能绕开人类

2026-05-02 15:04:33 | 15 阅读