AI评测工具告急：Claude Mythos横空出世，传统测试方法已不够用

发布时间：2026-05-11 22:15阅读：10

你是否曾设想过，评估AI实力的工具，有朝一日会被AI本身给"弄垮"？

这一天，在2026年5月8日，真实上演了。

主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放，普通用户无法接触它，但它最近在AI安全评测机构METR那里创造了一个历史性的纪录：在人类需要花费16小时才能搞定的复杂编程任务上，Claude Mythos实现了50%的成功率。

结果，METR的评测系统直接"瘫痪"了。

METR（Machine Intelligence Evaluation & Research）是全球最具权威的AI安全评测机构之一。他们设计了一套指标叫做"50%成功率时间线"——即：一个模型在人类需要花多长时间完成的任务上，能够达到一半的成功率。

你可以把它看作一把衡量AI进化程度的"标尺"。

此前所有模型——包括GPT-5.4、Gemini 3.1、DeepSeek V4——这把标尺量出来的最高值都在几个小时范围内，最多2-4小时。

Claude Mythos出现后，直接飙升到16小时。

但问题是：METR的题库中，难度达到"人类需要16小时完成"这个级别的题目，总共只有5道。

5道题，根本测不出上限。

METR的研究人员不得不在报告中加入了一句历史上从未出现过的注释："16小时以上的测量结果，精度无法保证。"

很多人听到"指数增长"已经觉得很惊人，但METR这次公布的趋势图显示的是——超指数增长（super-exponential）。

指数增长是"增长速度恒定"，而超指数则是"增长速度本身也在加速"。

METR官方追踪数据显示（