可信执行_标签-酷阅新闻

AI可解释性突破推动安全标准化

AI存储实战 | AI存储实战进阶2026年6月，Anthropic发表论文揭示了大语言模型的'可解释性黑箱'问题取得突破。研究团队通过'稀疏自编码器'技术，将模型内部的数百万个特征分解为可解释的概念单元，首次实现了对GPT-4级别模型决策过程的实时追踪和解释。加州伯克利AI安全中心发布'AIRS'（AI Risk Score）评估框架，对全球主流大模型进行安全评分。GPT-5得分87/100，Gemini 2.5 Ultra得分91/100，Claude

2026-07-01 07:44:10 | 2 阅读