人工智能时代主流大模型实力分层

发布时间：2026-06-23 22:19阅读：2

“AI模型排名”没有唯一标准。有人按综合智商（benchmark）、有人按编程、有人按中文能力、有人按性价比、还有人按实际用户体验来排。现在行业里更接近真实的做法，是把不同领域拆开看，而不是给一个绝对总榜。

下面这份是基于近几个月公开排行榜（Artificial Analysis、LMArena、人类偏好测试、SWE-Bench 等）以及行业实际使用情况整理的“截至目前相对客观的主流模型排名”。(Polylabs)

本文收集的信息的排名日期 2026-06-21.

趋势：Claude 和 GPT 已经不是像 GPT-4 时代那样断层领先，Gemini、DeepSeek、Qwen 追得非常近。(Polylabs)

原因：

SWE-bench 一类编程榜上 Claude、DeepSeek、GPT通常占前列。(LLM Leaderboard)

说明：

国内模型在中文网络语境、成语、互联网梗、本地知识上通常比海外模型自然。

Gemini 在视频理解、超长上下文、多模态联合上非常强。(LLM Leaderboard)

DeepSeek 当初对行业冲击很大，主要不是绝对第一，而是“接近顶级能力 + 极低成本”。(Tech Journal)

如果按“普通用户真实体验”而不是实验室跑分，我会给出这样的梯队：

第一梯队（顶级）

第二梯队（非常强）

第三梯队（特定场景强）

有意思的是，2025以前很多人默认“OpenAI第一”。现在行业已经变成“没有绝对王者，而是不同领域各自领先”。Claude 在代码和文本质量 often拿第一，Gemini 多模态强，GPT生态最完整，DeepSeek/Qwen 在性价比和中文上非常能打.