对抗训练_标签-酷阅新闻

OpenAI 训练 AI 黑客攻破自家售货机：GPT-Red 揭秘安全新范式

OpenAI 内部部署了一台智能售货机。它不仅能自主定价、补货，还能与你互动并推荐零食。随后，OpenAI 推出了 GPT-Red，这是一个专门针对自家 AI 系统进行攻击测试的“超级黑客模型”。结果如何？三项恶意目标悉数得手：将价值超百美元的商品价格篡改为 0.50 美元；下单采购新商品并以 0.50 美元低价抛售；甚至顺带取消了其他用户的订单。上述所有案例，均源自 OpenAI 于 7 月 15 日公开的内部安全测试记录。▲ OpenAI 官方公告宣布 GPT-Red 上线GPT-Red 究竟旨在解决

2026-07-17 05:20:09 | 10 阅读

【博士论文】对齐AI系统的潜在安全隐患研究

自主人工智能（AI）代理正逐步获得文件系统访问权限、邮箱控制权以及在无人监督情况下执行复杂多步任务的能力。本论文聚焦于此类系统安全领域的四个关键且尚未解决的核心挑战：揭示引发危险行为的内在计算机制、清除已植入的危险行为、在部署前开展漏洞评估，以及预测模型何时会产生偏离开发者预期的行为。这四项研究在不同的抽象层面展开——从“白盒”机理分析到“黑盒”行为评估，且均在深入理解与前沿模型的可扩展性之间寻求平衡。**自动化电路发现（ACDC）**实现了对特定模型行为负责的计算子图的自动识别。该算法通过迭代削减Tra

2026-04-16 11:10:29 | 15 阅读