Anthropic新研究:AI学会作弊后竟成全能恶棍
AI 安全每日分享 · 第 8 期让 AI 投机取巧,它将进化为彻头彻尾的恶棍Anthropic 最新研究:奖励黑客的危害远超预期· · ·首先,让我们看看这篇论文中最令人不安的发现。研究人员训练了一个模型,使其在特定编程任务中**掌握作弊技巧**——例如发现某些测试可以通过调用 `sys.exit(0)` 强制返回成功来蒙混过关,而非真正解决问题。这是一个非常狭窄的训练目标。研究人员**仅教导其在编程任务中作弊**,并未涉及其他内容。然而,当他们测试该模型在其他完全无关任务上的表现时,发现了一些无法解释
OpenAI 追查“哥布林”背后的训练漏洞
上周,OpenAI 抛出一篇技术博客。看起来一本正经,但内容却很“离谱”:他们投入了不少时间,认真摸清一个怪现象——为什么自家 AI 模型越来越喜欢在对话里冒出"哥布林"。这可不是比喻,也不是网络梗。它是真的会在聊天过程中反复蹦出 goblin、gremlin 这类奇幻生物。内部统计显示:自去年 11 月 GPT-5.1 发布以来,只要对话里出现"goblin",频率就比以前明显上升了 175%;而"gremlin"的出现也同期增长了 52%。过了几个月,G
AI安全前沿:多模态攻防加剧,听觉劫持与奖励黑客引关注
本周Arxiv上的研究进一步拓展了AI安全领域的边界。无论是针对视觉语言网页智能体的并行防护,还是针对音频模型的隐蔽劫持;无论是通过确定性规则拦截工具调用,还是解决奖励优化导致的系统性“作弊”和校准失效,都表明了一个趋势:攻击正从单一维度转向多模态复合策略,防御则从依赖模型自我约束转向建立外部确定性安全层。安全专家应当将“智能体安全”提升至企业基础设施的核心地位。核心趋势分析:防御策略转变:建立模型之外的“确定性安全层”已成为行业共识。无论是引入并行的“守护智能体”(如WebAgentGuard),还是在