标签

人工智能时代主流大模型实力分层

发布时间:2026-06-23 22:19阅读:2

“AI模型排名”没有唯一标准。有人按综合智商(benchmark)、有人按编程、有人按中文能力、有人按性价比、还有人按实际用户体验来排。现在行业里更接近真实的做法,是把不同领域拆开看,而不是给一个绝对总榜。

下面这份是基于近几个月公开排行榜(Artificial Analysis、LMArena、人类偏好测试、SWE-Bench 等)以及行业实际使用情况整理的“截至目前相对客观的主流模型排名”。(Polylabs)

本文收集的信息的排名日期 2026-06-21.

趋势:Claude 和 GPT 已经不是像 GPT-4 时代那样断层领先,Gemini、DeepSeek、Qwen 追得非常近。(Polylabs)

原因:

SWE-bench 一类编程榜上 Claude、DeepSeek、GPT通常占前列。(LLM Leaderboard)

说明:

国内模型在中文网络语境、成语、互联网梗、本地知识上通常比海外模型自然。

Gemini 在视频理解、超长上下文、多模态联合上非常强。(LLM Leaderboard)

DeepSeek 当初对行业冲击很大,主要不是绝对第一,而是“接近顶级能力 + 极低成本”。(Tech Journal)

如果按“普通用户真实体验”而不是实验室跑分,我会给出这样的梯队:

第一梯队(顶级)

第二梯队(非常强)

第三梯队(特定场景强)

有意思的是,2025以前很多人默认“OpenAI第一”。现在行业已经变成“没有绝对王者,而是不同领域各自领先”。Claude 在代码和文本质量 often拿第一,Gemini 多模态强,GPT生态最完整,DeepSeek/Qwen 在性价比和中文上非常能打.