人工智能时代主流大模型实力分层
“AI模型排名”没有唯一标准。有人按综合智商(benchmark)、有人按编程、有人按中文能力、有人按性价比、还有人按实际用户体验来排。现在行业里更接近真实的做法,是把不同领域拆开看,而不是给一个绝对总榜。
下面这份是基于近几个月公开排行榜(Artificial Analysis、LMArena、人类偏好测试、SWE-Bench 等)以及行业实际使用情况整理的“截至目前相对客观的主流模型排名”。(Polylabs)
本文收集的信息的排名日期 2026-06-21.
趋势:Claude 和 GPT 已经不是像 GPT-4 时代那样断层领先,Gemini、DeepSeek、Qwen 追得非常近。(Polylabs)
原因:
SWE-bench 一类编程榜上 Claude、DeepSeek、GPT通常占前列。(LLM Leaderboard)
说明:
国内模型在中文网络语境、成语、互联网梗、本地知识上通常比海外模型自然。
Gemini 在视频理解、超长上下文、多模态联合上非常强。(LLM Leaderboard)
DeepSeek 当初对行业冲击很大,主要不是绝对第一,而是“接近顶级能力 + 极低成本”。(Tech Journal)
如果按“普通用户真实体验”而不是实验室跑分,我会给出这样的梯队:
第一梯队(顶级)
第二梯队(非常强)
第三梯队(特定场景强)
有意思的是,2025以前很多人默认“OpenAI第一”。现在行业已经变成“没有绝对王者,而是不同领域各自领先”。Claude 在代码和文本质量 often拿第一,Gemini 多模态强,GPT生态最完整,DeepSeek/Qwen 在性价比和中文上非常能打.