开卷评分_标签-酷阅新闻

OpenAI：评价体系成AI“胡编”诱因 | Nature

大语言模型常会输出自信且看似合理的谬误（即“幻觉”），这严重制约了模型的可靠性。尽管学界已提出多种解释及缓解手段，如检索增强、一致性自验证和基于人类反馈的强化学习等，但在最先进的模型中，这一问题依然难以根除。为何模型明明不懂，却总爱一本正经地胡乱作答？OpenAI近期在《Nature》发表文章，指出核心原因：问题并非仅限于模型能力不足或数据存在噪声，而是当前主流的训练目标（预测下一词）和评估方式（基于准确率），在无形中系统性鼓励了毫无根据的“瞎猜”。这可细分为两个层面：一是预训练阶段。只要核心目标仍是“预

2026-04-26 11:52:05 | 10 阅读