加密微调_标签-酷阅新闻

大模型也会“自查自爆”？Anthropic内省适配器直指隐患

2026年4月28日，Anthropic与剑桥大学Ashwood AI科学与政策中心共同发布一篇论文，抛出一项被称为“AI安全炸弹”的新方法：名为“内省适配器”（Introspection Adapters, IA）的技术。用更直白的话讲，它像是给大模型加了一套“让它开口说真话”的机制——只需在模型侧接入一个轻量插件，就能促使其用自然语言把微调过程中偷偷学到的“问题”讲清楚：例如暗藏的后门、偏见倾向，甚至夹带被加密过的恶意指令。一、给大模型装上“测谎模块”，隐藏风险难再躲开以往判断大模型是否存在隐患，

2026-05-03 14:48:42 | 16 阅读