标签

AI评测工具告急:Claude Mythos横空出世,传统测试方法已不够用

发布时间:2026-05-11 22:15来源:微信阅读:5

你是否曾设想过,评估AI实力的工具,有朝一日会被AI本身给"弄垮"?

这一天,在2026年5月8日,真实上演了。

主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放,普通用户无法接触它,但它最近在AI安全评测机构METR那里创造了一个历史性的纪录:在人类需要花费16小时才能搞定的复杂编程任务上,Claude Mythos实现了50%的成功率。

结果,METR的评测系统直接"瘫痪"了。

METR(Machine Intelligence Evaluation & Research)是全球最具权威的AI安全评测机构之一。他们设计了一套指标叫做"50%成功率时间线"——即:一个模型在人类需要花多长时间完成的任务上,能够达到一半的成功率。

你可以把它看作一把衡量AI进化程度的"标尺"。

此前所有模型——包括GPT-5.4、Gemini 3.1、DeepSeek V4——这把标尺量出来的最高值都在几个小时范围内,最多2-4小时。

Claude Mythos出现后,直接飙升到16小时。

但问题是:METR的题库中,难度达到"人类需要16小时完成"这个级别的题目,总共只有5道。

5道题,根本测不出上限。

METR的研究人员不得不在报告中加入了一句历史上从未出现过的注释:"16小时以上的测量结果,精度无法保证。"

很多人听到"指数增长"已经觉得很惊人,但METR这次公布的趋势图显示的是——超指数增长(super-exponential)。

指数增长是"增长速度恒定",而超指数则是"增长速度本身也在加速"。

METR官方追踪数据显示(