16小时_标签-酷阅新闻

AI评测工具告急：Claude Mythos横空出世，传统测试方法已不够用

你是否曾设想过，评估AI实力的工具，有朝一日会被AI本身给"弄垮"？这一天，在2026年5月8日，真实上演了。主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放，普通用户无法接触它，但它最近在AI安全评测机构METR那里创造了一个历史性的纪录：在人类需要花费16小时才能搞定的复杂编程任务上，Claude Mythos实现了50%的成功率。结果，METR的评测系统直接"瘫痪"了。METR（Machine Intelligence Evaluation & Re

2026-05-11 22:15:09 | 10 阅读