标签

AI 榜单僵局:Claude 继续霸榜前四

发布时间:2026-06-01 12:51来源:微信阅读:5

Arena 排行榜 · 2026.06.01

继上周发布「前四名皆被 Claude 占据」的报道后,本周再次查看 Arena 文本榜单,发现前四席位依旧由 Claude 牢牢把控,分数波动微乎其微。1502、1500、1498、1494,冠亚季殿军悉数落入 Anthropic 囊中。

总投票数已从 629 万攀升至 653 万,参评模型数量维持在 360 个。简而言之,头部阵营格局已定,变动仅体现于第 8 至 12 名的细微位次更替,以及部分模型分数 ±1~2 分的轻微调整。

与 5 月 25 日的榜单相比,前十名阵容基本保持一致,主要变化在于排名顺序和分数的微调:

1

Claude Opus 4.6 (Thinking)→ 持平

Anthropic · 1502 分 · 投票 34,186(+6,732)

2

Claude Opus 4.7 (Thinking)→ 持平

Anthropic · 1500 分 · 投票 19,973(+7,053)

3

Claude Opus 4.6→ 持平

Anthropic · 1498 分 · 投票 36,512(+7,272)

4

Claude Opus 4.7↑ +2 分

Anthropic · 1494 分 · 投票 20,724(1492→1494)

5

Muse Spark (Meta)→ 持平

Meta · 1489 分 · 投票 12,228 · 成绩待定

6

Gemini 3.1 Pro Preview↓ -1 分

Google · 1487 分 · 投票 43,742(样本量增速最快)

7

Gemini 3 Pro→ 持平

Google · 1486 分 · 投票 41,332

8

GPT-5.5 High↑ +1 分

OpenAI · 1482 分 · 投票 16,573(1481→1482)

9

GPT-5.4 High↑ 第 10→9

OpenAI · 1480 分 · 投票 28,246

10

Gemini 3.5 Flash↓ 第 9→10

Google · 1479 分 · 投票 9,045 · 成绩待定

排名依据 Arena 众包盲测 Elo 评分,对比上周(5 月 25 日)数据

前四名的 Elo 得分与上周几乎一致——唯有非 Thinking 版的 Opus 4.7 从 1492 小幅上升至 1494。然而投票量增长显著:4.6 Thinking 版从 2.74 万增至 3.42 万,4.7 Thinking 版从 1.29 万激增至近 2 万。

这揭示了什么?尽管样本量在扩大,但头部模型的相对实力差距已趋于稳定。当投票数从数万跃升至十数万,Elo 分数仍能保持静止,这基本标志着「该位置已稳固」。

值得注意的是:Opus 4.6 非 Thinking 版的投票量(3.65 万)已超越 4.6 Thinking 版(3.42 万)。普通用户或许更倾向于使用未开启慢思考的版本——但榜单显示 Thinking 版得分更高,证明「慢思考」机制在盲测中确实具备优势。

本周最显著的变动在于:GPT-5.4 High 从第 10 名跃升至第 9,而 Gemini 3.5 Flash 则从第 9 名滑落至第 10。两者仅差 1 分(1480 对 1479),属于统计误差范围内的位次互换,并非实质性的格局重塑。

GPT-5.4 High 的投票量为 2.82 万,是 Gemini 3.5 Flash(9045 票)的三倍有余——样本更充足,排名也更具可信度。3.5 Flash 仍标记为 Preliminary(初步),分数波动较大,下周排名可能回升。

Gemini 3.1 Pro Preview 的投票量从 3.4 万猛增至 4.37 万,是全榜样本增长最快的模型之一。但其分数却从 1488 降至 1487——投票增加并未带来分数提升,表明早期尝鲜用户的评价可能过于乐观,目前分数已回归理性。

老牌旗舰 Gemini 3 Pro 分数仍为 1486 分,票数 4.13 万,基本无变化。Google 目前有三款 Gemini 3.x 系列模型(3.1 Pro、3 Pro、3.5 Flash)聚集在前十附近,内部竞争日趋激烈。

第 11 至 14 名分数均为 1476 或 1475 分,四款模型并列:

11. GPT-5.5 — 1476 分 · 1.69 万票

12. GPT-5.2 Chat — 1476 分 · 3.23 万票

13. Grok 4.20 Beta — 1476 分 · 2.45 万票

14. Grok 4.20 Reasoning — 1475 分 · 2.91 万票

15. Qwen 3.7 Max Preview — 1475 分 · 3755 票(国产最高)

Qwen 3.7 Max Preview 继续稳居国产模型首位,但投票数仅 3700 余,分数随时可能发生跳变。DeepSeek V4 Pro Thinking 仍徘徊在 30 名之外(约 1461 分),国产模型若想重返 Top 10,需等待下一轮大版本更新。

本周核心词:稳

→ Top 1–7 排名未变:Claude 垄断前四,Meta 与 Google 占据 5–7 位

↑ Opus 4.7 加 2 分、GPT-5.5 High 加 1 分、GPT-5.4 High 升至第 9

↓ Gemini 3.1 Pro 减 1 分、Gemini 3.5 Flash 降至第 10

总投票数 653 万(增加 24 万),国产模型最高排名仍为 Qwen 3.7 Max Preview 第 15 位

Claude Opus 4.6/4.7 Thinking — $5 / $25

Gemini 3.1 Pro Preview — $2 / $12

GPT-5.5 High — $5 / $30

GPT-5.4 High — $2.50 / $15

Gemini 3.5 Flash — $1.50 / $9

若追求质量不计成本:Claude Opus 4.6 Thinking 依然是样本量与分数的双料冠军。若看重性价比:Gemini 3.5 Flash 或 Gemini 3 Flash(第 18 名,1473 分,$0.50/$3)更为经济实惠。GPT-5.2 Chat 得分 1476 分,价格$1.75/$14,也是一个被低估的优质选择。