性能分析_标签-酷阅新闻

AI大模型周评第29期：对话与推理新排名

OpenAI推出的gpt-oss-120b (high)以93.4分拔得头筹，凸显其在数学推理方面的卓越实力；紧随其后的是gpt-oss-20B (high)（89.3分）与GPT-5 nano (high)（83.7分）。相比之下，Meta的Llama 4 Maverick（19.3分）及Google的Gemma 4 E2B（15.2分）等轻量级模型得分较低，印证了大参数模型在处理数学任务时的显著优势。在综合智能任务中，Anthropic的Claude Fable 5以64.9分领跑，OpenAI的GP

2026-06-15 11:44:20 | 17 阅读