OpenAI：评价体系成AI“胡编”诱因 | Nature

发布时间：2026-04-26 11:52阅读：10

大语言模型常会输出自信且看似合理的谬误（即“幻觉”），这严重制约了模型的可靠性。尽管学界已提出多种解释及缓解手段，如检索增强、一致性自验证和基于人类反馈的强化学习等，但在最先进的模型中，这一问题依然难以根除。

为何模型明明不懂，却总爱一本正经地胡乱作答？OpenAI近期在《Nature》发表文章，指出核心原因：问题并非仅限于模型能力不足或数据存在噪声，而是当前主流的训练目标（预测下一词）和评估方式（基于准确率），在无形中系统性鼓励了毫无根据的“瞎猜”。

这可细分为两个层面：一是预训练阶段。只要核心目标仍是“预测下一词”，模型便倾向于给出看似合理的续写，而非承认无知。二是评测环节。主流榜单多采用准确率打分，在此规则下，“不知道”与“答错”均记零分，因此模型的最优策略并非谨慎，而是尽可能猜测。

因此，与其泛泛谈论“模型产生幻觉”，不如将其重构为一个具体问题：幻觉不仅是模型的缺陷，更是现有激励机制放大的产物。

AI的“胡编”本质是激励设计问题，而非模型结构或数据问题。一旦规则明确，减少幻觉便无需与高分目标相悖。

传统的“闭卷评分”（准确率标准）虽能减少错误回答，但同时也降低了正确回答率，导致在准确率指标上反而处于劣势。换言之，模型虽然少胡编了，但因频繁弃权而在榜单上表现不佳。若改用“开卷评分”，情况则截然不同。无论惩罚力度大小，只要规则明确，缓解策略都能带来更高得分。简而言之，在开卷评分下，减少幻觉与提升分数可以并行不悖。建议采用开放评分标准以扭转鼓励猜测的激励。将AI幻觉定义为激励问题，为构建更可靠的语言模型提供了实践路径。

← 上一篇：AI重塑未来：小鹏集团于2026北京车展展示物理AI矩阵下一篇：不懂代码也能做AI？一文读懂AI开发框架的底层原理 →