千问3.7-Max发布：国产最强，35小时自主任务表现惊艳

发布时间：2026-05-20 11:51阅读：17

新浪科技5月20日早间资讯，阿里巴巴推出了全新的千问旗舰版Qwen3.7-Max。在第三方Arena全球大模型盲测榜单上，该模型力压Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini等顶尖产品难分伯仲，稳居国产榜单首位。

据了解，Qwen3.7专为当下智能体应用量身打造，在编程与逻辑推理等关键领域取得重大进展，具备全自主执行35小时超长复杂任务的能力：在某款新型芯片平台上，Qwen3.7-Max依靠自主编写代码及逾千次工具调用，成功达成核心内核的自我迭代，推理效能较前代提升了十倍。

目前，代码编写能力已成为评估大语言模型的关键维度，Qwen3.7-Max较上一代有了质的飞跃，从基础原型设计到复杂的工程文件构建皆能游刃有余。在SWE-bench及SciCode等实战与科学编程测评中，Qwen3.7-Max的表现远超Qwen3.6-Plus，并且击败了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等竞品。该模型堪称卓越的编程助手，能自主编写代码、生成工具并精准执行，具备自我纠错与迭代能力，宛如资深工程师，能独立完成从需求分析到测试交付的全过程，产出高质量的工业级成果。

日益精进的技术实力，为处理更庞大、周期更长的任务提供了保障。千问3.7展现出强大的智能体属性及跨框架通用性，在Claude Code、OpenClaw、Qwen Code等多种环境下均表现稳健，有望成为各类智能体系统的坚实基石。依托MCP接口与多智能体协作机制，Qwen3.7-Max实现了企业办公场景的自动化，在SpreadSheetBench-v1基准测试中获得87分的高分，稳居行业前列。以前需要专业团队耗费一两周的复杂项目，如今由Qwen3.7-Max驱动的智能体仅需数小时即可实现端到端的交付。

在实战任务检验中，Qwen3.7-Max展现了当前智能体处理超长任务的极限水平。面对一款模型训练时从未涉足的硬件——平头哥真武M890芯片，千问3.7成功攻克了复杂的推理内核优化难题。在缺乏任何性能数据、硬件手册或参考案例的绝境下，千问3.7仅凭任务描述、SGLang Triton参考代码和测试脚本，从“零”起步，连续编码35小时，独立执行432次内核测试和1158次工具调用，完整掌控了编写、编译、分析及优化的全流程。（文猛）

责任编辑：江钰涵

新浪财经声明：本文系转载自合作媒体，旨在传递更多资讯，内容仅供参考，不作为投资建议。

郑重声明：1.依据《证券法》，严禁编造、传播虚假或误导性信息以扰乱市场；2.用户在本社区发布的资料及言论仅代表个人立场，与本平台无关，不构成投资建议。请用户独立判断，自负盈亏。

← 上一篇：AI时代的哲学思考：技术赋能与人文反思的碰撞下一篇：揭秘 AI 训练：还原英语习得的本质逻辑 →