AI大模型周评第29期:对话与推理新排名
OpenAI推出的gpt-oss-120b (high)以93.4分拔得头筹,凸显其在数学推理方面的卓越实力;紧随其后的是gpt-oss-20B (high)(89.3分)与GPT-5 nano (high)(83.7分)。相比之下,Meta的Llama 4 Maverick(19.3分)及Google的Gemma 4 E2B(15.2分)等轻量级模型得分较低,印证了大参数模型在处理数学任务时的显著优势。
在综合智能任务中,Anthropic的Claude Fable 5以64.9分领跑,OpenAI的GPT-5.5 (xhigh)(60.2分)和GPT-5.2 (xhigh)(51.3分)紧随其后。Google的Gemini 3 Pro Preview(48.4分)与DeepSeek V4 Pro(51.5分)亦跻身第一梯队,表明高端模型在综合性智能挑战中取得了新突破。
Claude Fable 5以62分夺魁,GPT-5.5 (xhigh)(59.1分)和GPT-5.2 Codex(53.1分)分列二三位。DeepSeek V4 Pro(47.5分)与Mistral Medium 3.5(35.4分)表现不俗,而开源模型如Llama 3.1 Instruct 70B(10.8分)则仍有较大的进步潜力。
当前AI模型展现出“性能分层化、场景垂直化”的特点:OpenAI、Anthropic与Google主导着高端市场,Meta和Mistral则在开源领域积极布局,价格与性能通常呈正比关系。未来,多模态能力、轻量化设计以及推理效能将成为竞争焦点,企业应依据实时性、成本及精度要求来甄选合适的模型。
Artificial Analysis Intelligence Index
智能指数:数值越高代表表现越优
Artificial Analysis Math Index
数学指数:数值越高代表表现越优
Artificial Analysis Coding Index
编码指数:数值越高代表表现越优
Median Output Tokens Per Second
数值越大,表明模型生成速度越快
AI Model Input/Output Price Comparison
输入/输出价格:美元/百万tokens(数值越低越佳)