标签

AI评测工具告急:Claude Mythos横空出世,传统测试方法已不够用

你是否曾设想过,评估AI实力的工具,有朝一日会被AI本身给"弄垮"?这一天,在2026年5月8日,真实上演了。主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放,普通用户无法接触它,但它最近在AI安全评测机构METR那里创造了一个历史性的纪录:在人类需要花费16小时才能搞定的复杂编程任务上,Claude Mythos实现了50%的成功率。结果,METR的评测系统直接"瘫痪"了。METR(Machine Intelligence Evaluation & Re

2026-05-11 22:15:09  |  5 阅读