大模型也会“自查自爆”?Anthropic内省适配器直指隐患
2026年4月28日,Anthropic与剑桥大学Ashwood AI科学与政策中心共同发布一篇论文,抛出一项被称为“AI安全炸弹”的新方法:名为“内省适配器”(Introspection Adapters, IA)的技术。用更直白的话讲,它像是给大模型加了一套“让它开口说真话”的机制——只需在模型侧接入一个轻量插件,就能促使其用自然语言把微调过程中偷偷学到的“问题”讲清楚:例如暗藏的后门、偏见倾向,甚至夹带被加密过的恶意指令。 一、给大模型装上“测谎模块”,隐藏风险难再躲开 以往判断大模型是否存在隐患,