AI大模型周评第29期：对话与推理新排名

发布时间：2026-06-15 11:44阅读：17

OpenAI推出的gpt-oss-120b (high)以93.4分拔得头筹，凸显其在数学推理方面的卓越实力；紧随其后的是gpt-oss-20B (high)（89.3分）与GPT-5 nano (high)（83.7分）。相比之下，Meta的Llama 4 Maverick（19.3分）及Google的Gemma 4 E2B（15.2分）等轻量级模型得分较低，印证了大参数模型在处理数学任务时的显著优势。

在综合智能任务中，Anthropic的Claude Fable 5以64.9分领跑，OpenAI的GPT-5.5 (xhigh)（60.2分）和GPT-5.2 (xhigh)（51.3分）紧随其后。Google的Gemini 3 Pro Preview（48.4分）与DeepSeek V4 Pro（51.5分）亦跻身第一梯队，表明高端模型在综合性智能挑战中取得了新突破。

Claude Fable 5以62分夺魁，GPT-5.5 (xhigh)（59.1分）和GPT-5.2 Codex（53.1分）分列二三位。DeepSeek V4 Pro（47.5分）与Mistral Medium 3.5（35.4分）表现不俗，而开源模型如Llama 3.1 Instruct 70B（10.8分）则仍有较大的进步潜力。

当前AI模型展现出“性能分层化、场景垂直化”的特点：OpenAI、Anthropic与Google主导着高端市场，Meta和Mistral则在开源领域积极布局，价格与性能通常呈正比关系。未来，多模态能力、轻量化设计以及推理效能将成为竞争焦点，企业应依据实时性、成本及精度要求来甄选合适的模型。

Artificial Analysis Intelligence Index

智能指数：数值越高代表表现越优

Artificial Analysis Math Index

数学指数：数值越高代表表现越优

Artificial Analysis Coding Index

编码指数：数值越高代表表现越优

Median Output Tokens Per Second

数值越大，表明模型生成速度越快

AI Model Input/Output Price Comparison

输入/输出价格：美元/百万tokens（数值越低越佳）

← 上一篇：智数学院开展“数据廉心”廉洁教育活动下一篇：AI产业链核心材料梳理 →