AI 榜单僵局：Claude 继续霸榜前四

发布时间：2026-06-01 12:51阅读：13

Arena 排行榜 · 2026.06.01

继上周发布「前四名皆被 Claude 占据」的报道后，本周再次查看 Arena 文本榜单，发现前四席位依旧由 Claude 牢牢把控，分数波动微乎其微。1502、1500、1498、1494，冠亚季殿军悉数落入 Anthropic 囊中。

总投票数已从 629 万攀升至 653 万，参评模型数量维持在 360 个。简而言之，头部阵营格局已定，变动仅体现于第 8 至 12 名的细微位次更替，以及部分模型分数 ±1～2 分的轻微调整。

与 5 月 25 日的榜单相比，前十名阵容基本保持一致，主要变化在于排名顺序和分数的微调：

Claude Opus 4.6 (Thinking)→ 持平

Anthropic · 1502 分 · 投票 34,186（+6,732）

Claude Opus 4.7 (Thinking)→ 持平

Anthropic · 1500 分 · 投票 19,973（+7,053）

Claude Opus 4.6→ 持平

Anthropic · 1498 分 · 投票 36,512（+7,272）

Claude Opus 4.7↑ +2 分

Anthropic · 1494 分 · 投票 20,724（1492→1494）

Muse Spark (Meta)→ 持平

Meta · 1489 分 · 投票 12,228 · 成绩待定

Gemini 3.1 Pro Preview↓ -1 分

Google · 1487 分 · 投票 43,742（样本量增速最快）

Gemini 3 Pro→ 持平

Google · 1486 分 · 投票 41,332

GPT-5.5 High↑ +1 分

OpenAI · 1482 分 · 投票 16,573（1481→1482）

GPT-5.4 High↑ 第 10→9

OpenAI · 1480 分 · 投票 28,246

Gemini 3.5 Flash↓ 第 9→10

Google · 1479 分 · 投票 9,045 · 成绩待定

排名依据 Arena 众包盲测 Elo 评分，对比上周（5 月 25 日）数据

前四名的 Elo 得分与上周几乎一致——唯有非 Thinking 版的 Opus 4.7 从 1492 小幅上升至 1494。然而投票量增长显著：4.6 Thinking 版从 2.74 万增至 3.42 万，4.7 Thinking 版从 1.29 万激增至近 2 万。

这揭示了什么？尽管样本量在扩大，但头部模型的相对实力差距已趋于稳定。当投票数从数万跃升至十数万，Elo 分数仍能保持静止，这基本标志着「该位置已稳固」。

值得注意的是：Opus 4.6 非 Thinking 版的投票量（3.65 万）已超越 4.6 Thinking 版（3.42 万）。普通用户或许更倾向于使用未开启慢思考的版本——但榜单显示 Thinking 版得分更高，证明「慢思考」机制在盲测中确实具备优势。

本周最显著的变动在于：GPT-5.4 High 从第 10 名跃升至第 9，而 Gemini 3.5 Flash 则从第 9 名滑落至第 10。两者仅差 1 分（1480 对 1479），属于统计误差范围内的位次互换，并非实质性的格局重塑。

GPT-5.4 High 的投票量为 2.82 万，是 Gemini 3.5 Flash（9045 票）的三倍有余——样本更充足，排名也更具可信度。3.5 Flash 仍标记为 Preliminary（初步），分数波动较大，下周排名可能回升。

Gemini 3.1 Pro Preview 的投票量从 3.4 万猛增至 4.37 万，是全榜样本增长最快的模型之一。但其分数却从 1488 降至 1487——投票增加并未带来分数提升，表明早期尝鲜用户的评价可能过于乐观，目前分数已回归理性。

老牌旗舰 Gemini 3 Pro 分数仍为 1486 分，票数 4.13 万，基本无变化。Google 目前有三款 Gemini 3.x 系列模型（3.1 Pro、3 Pro、3.5 Flash）聚集在前十附近，内部竞争日趋激烈。

第 11 至 14 名分数均为 1476 或 1475 分，四款模型并列：

11. GPT-5.5 — 1476 分 · 1.69 万票

12. GPT-5.2 Chat — 1476 分 · 3.23 万票

13. Grok 4.20 Beta — 1476 分 · 2.45 万票

14. Grok 4.20 Reasoning — 1475 分 · 2.91 万票

15. Qwen 3.7 Max Preview — 1475 分 · 3755 票（国产最高）

Qwen 3.7 Max Preview 继续稳居国产模型首位，但投票数仅 3700 余，分数随时可能发生跳变。DeepSeek V4 Pro Thinking 仍徘徊在 30 名之外（约 1461 分），国产模型若想重返 Top 10，需等待下一轮大版本更新。

本周核心词：稳

→ Top 1–7 排名未变：Claude 垄断前四，Meta 与 Google 占据 5–7 位

↑ Opus 4.7 加 2 分、GPT-5.5 High 加 1 分、GPT-5.4 High 升至第 9

↓ Gemini 3.1 Pro 减 1 分、Gemini 3.5 Flash 降至第 10

总投票数 653 万（增加 24 万），国产模型最高排名仍为 Qwen 3.7 Max Preview 第 15 位

Claude Opus 4.6/4.7 Thinking — $5 / $25

Gemini 3.1 Pro Preview — $2 / $12

GPT-5.5 High — $5 / $30

GPT-5.4 High — $2.50 / $15

Gemini 3.5 Flash — $1.50 / $9

若追求质量不计成本：Claude Opus 4.6 Thinking 依然是样本量与分数的双料冠军。若看重性价比：Gemini 3.5 Flash 或 Gemini 3 Flash（第 18 名，1473 分，$0.50/$3）更为经济实惠。GPT-5.2 Chat 得分 1476 分，价格$1.75/$14，也是一个被低估的优质选择。

← 上一篇：AI 如何掌握你的审美风格下一篇：AI趋势下的市场博弈 →