标签

OpenAI:评价体系成AI“胡编”诱因 | Nature

发布时间:2026-04-26 11:52来源:微信阅读:5

大语言模型常会输出自信且看似合理的谬误(即“幻觉”),这严重制约了模型的可靠性。尽管学界已提出多种解释及缓解手段,如检索增强、一致性自验证和基于人类反馈的强化学习等,但在最先进的模型中,这一问题依然难以根除。

为何模型明明不懂,却总爱一本正经地胡乱作答?OpenAI近期在《Nature》发表文章,指出核心原因:问题并非仅限于模型能力不足或数据存在噪声,而是当前主流的训练目标(预测下一词)和评估方式(基于准确率),在无形中系统性鼓励了毫无根据的“瞎猜”。

这可细分为两个层面:一是预训练阶段。只要核心目标仍是“预测下一词”,模型便倾向于给出看似合理的续写,而非承认无知。二是评测环节。主流榜单多采用准确率打分,在此规则下,“不知道”与“答错”均记零分,因此模型的最优策略并非谨慎,而是尽可能猜测。

因此,与其泛泛谈论“模型产生幻觉”,不如将其重构为一个具体问题:幻觉不仅是模型的缺陷,更是现有激励机制放大的产物。

AI的“胡编”本质是激励设计问题,而非模型结构或数据问题。一旦规则明确,减少幻觉便无需与高分目标相悖。

传统的“闭卷评分”(准确率标准)虽能减少错误回答,但同时也降低了正确回答率,导致在准确率指标上反而处于劣势。换言之,模型虽然少胡编了,但因频繁弃权而在榜单上表现不佳。若改用“开卷评分”,情况则截然不同。无论惩罚力度大小,只要规则明确,缓解策略都能带来更高得分。简而言之,在开卷评分下,减少幻觉与提升分数可以并行不悖。建议采用开放评分标准以扭转鼓励猜测的激励。将AI幻觉定义为激励问题,为构建更可靠的语言模型提供了实践路径。