标签

AI可解释性突破推动安全标准化

AI存储实战 | AI存储实战进阶2026年6月,Anthropic发表论文揭示了大语言模型的'可解释性黑箱'问题取得突破。研究团队通过'稀疏自编码器'技术,将模型内部的数百万个特征分解为可解释的概念单元,首次实现了对GPT-4级别模型决策过程的实时追踪和解释。加州伯克利AI安全中心发布'AIRS'(AI Risk Score)评估框架,对全球主流大模型进行安全评分。GPT-5得分87/100,Gemini 2.5 Ultra得分91/100,Claude

2026-07-01 07:44:10  |  2 阅读