内省适配_标签-酷阅新闻

AI领域5月5日前沿突破汇总

15岁即斩获量子物理博士学位的比利时天才Laurent Simons，现正借助AI技术向人类衰老发起挑战，志在实现永生。他将衰老看作多系统耦合的复杂工程难题，运用AI开展跨学科数据整合、理论构建与药物开发。拜登前首席技术官Daniel Woods携手Claude Code 4.6打造的开源项目，首次让3970亿参数的MoE模型在普通硬件上实现交互级运行速度。该项目采用Objective-C与C语言开发，摆脱Python依赖，借助Metal Shader和GCD并行读取技术提升性能。Anthropic与剑桥

2026-05-05 14:35:29 | 17 阅读

大模型也会“自查自爆”？Anthropic内省适配器直指隐患

2026年4月28日，Anthropic与剑桥大学Ashwood AI科学与政策中心共同发布一篇论文，抛出一项被称为“AI安全炸弹”的新方法：名为“内省适配器”（Introspection Adapters, IA）的技术。用更直白的话讲，它像是给大模型加了一套“让它开口说真话”的机制——只需在模型侧接入一个轻量插件，就能促使其用自然语言把微调过程中偷偷学到的“问题”讲清楚：例如暗藏的后门、偏见倾向，甚至夹带被加密过的恶意指令。一、给大模型装上“测谎模块”，隐藏风险难再躲开以往判断大模型是否存在隐患，

2026-05-03 14:48:42 | 16 阅读