标签

AI大模型周评第29期:对话与推理新排名

OpenAI推出的gpt-oss-120b (high)以93.4分拔得头筹,凸显其在数学推理方面的卓越实力;紧随其后的是gpt-oss-20B (high)(89.3分)与GPT-5 nano (high)(83.7分)。相比之下,Meta的Llama 4 Maverick(19.3分)及Google的Gemma 4 E2B(15.2分)等轻量级模型得分较低,印证了大参数模型在处理数学任务时的显著优势。在综合智能任务中,Anthropic的Claude Fable 5以64.9分领跑,OpenAI的GP

2026-06-15 11:44:20  |  1 阅读