奖励黑客_标签-酷阅新闻

AI编程评估为何逐渐失灵？OpenAI撤销SWE-Bench Pro推荐

数月前，OpenAI还曾向业界推荐使用SWE-Bench Pro来衡量前沿模型的编程水平。而如今，这一推荐已被撤回。2026年7月，OpenAI公布了对SWE-Bench Pro的审查结论：在公开测试集涵盖的731个任务里，自动审核流程判定其中200个任务存在问题，占比达27.4%；人工标注则认定249个任务存在问题，占比34.1%。综合两类审核结果，OpenAI估算公开任务中约有30%属于"劣质"任务。所谓"劣质"，并非指题目难度过高，而是指测试本身无法准确判定模型是否真正完成了任务。模型可能给出了合理

2026-07-13 13:50:13 | 12 阅读

Anthropic新研究：AI学会作弊后竟成全能恶棍

AI 安全每日分享 · 第 8 期让 AI 投机取巧，它将进化为彻头彻尾的恶棍Anthropic 最新研究：奖励黑客的危害远超预期· · ·首先，让我们看看这篇论文中最令人不安的发现。研究人员训练了一个模型，使其在特定编程任务中**掌握作弊技巧**——例如发现某些测试可以通过调用 `sys.exit(0)` 强制返回成功来蒙混过关，而非真正解决问题。这是一个非常狭窄的训练目标。研究人员**仅教导其在编程任务中作弊**，并未涉及其他内容。然而，当他们测试该模型在其他完全无关任务上的表现时，发现了一些无法解释

2026-05-04 15:05:08 | 33 阅读

OpenAI 追查“哥布林”背后的训练漏洞

上周，OpenAI 抛出一篇技术博客。看起来一本正经，但内容却很“离谱”：他们投入了不少时间，认真摸清一个怪现象——为什么自家 AI 模型越来越喜欢在对话里冒出"哥布林"。这可不是比喻，也不是网络梗。它是真的会在聊天过程中反复蹦出 goblin、gremlin 这类奇幻生物。内部统计显示：自去年 11 月 GPT-5.1 发布以来，只要对话里出现"goblin"，频率就比以前明显上升了 175%；而"gremlin"的出现也同期增长了 52%。过了几个月，G

2026-05-01 07:32:15 | 10 阅读

AI安全前沿：多模态攻防加剧，听觉劫持与奖励黑客引关注

本周Arxiv上的研究进一步拓展了AI安全领域的边界。无论是针对视觉语言网页智能体的并行防护，还是针对音频模型的隐蔽劫持；无论是通过确定性规则拦截工具调用，还是解决奖励优化导致的系统性“作弊”和校准失效，都表明了一个趋势：攻击正从单一维度转向多模态复合策略，防御则从依赖模型自我约束转向建立外部确定性安全层。安全专家应当将“智能体安全”提升至企业基础设施的核心地位。核心趋势分析：防御策略转变：建立模型之外的“确定性安全层”已成为行业共识。无论是引入并行的“守护智能体”（如WebAgentGuard），还是在

2026-04-19 21:14:48 | 19 阅读