千问3.7-Max发布:国产最强,35小时自主任务表现惊艳
新浪科技5月20日早间资讯,阿里巴巴推出了全新的千问旗舰版Qwen3.7-Max。在第三方Arena全球大模型盲测榜单上,该模型力压Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini等顶尖产品难分伯仲,稳居国产榜单首位。
据了解,Qwen3.7专为当下智能体应用量身打造,在编程与逻辑推理等关键领域取得重大进展,具备全自主执行35小时超长复杂任务的能力:在某款新型芯片平台上,Qwen3.7-Max依靠自主编写代码及逾千次工具调用,成功达成核心内核的自我迭代,推理效能较前代提升了十倍。
目前,代码编写能力已成为评估大语言模型的关键维度,Qwen3.7-Max较上一代有了质的飞跃,从基础原型设计到复杂的工程文件构建皆能游刃有余。在SWE-bench及SciCode等实战与科学编程测评中,Qwen3.7-Max的表现远超Qwen3.6-Plus,并且击败了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等竞品。该模型堪称卓越的编程助手,能自主编写代码、生成工具并精准执行,具备自我纠错与迭代能力,宛如资深工程师,能独立完成从需求分析到测试交付的全过程,产出高质量的工业级成果。
日益精进的技术实力,为处理更庞大、周期更长的任务提供了保障。千问3.7展现出强大的智能体属性及跨框架通用性,在Claude Code、OpenClaw、Qwen Code等多种环境下均表现稳健,有望成为各类智能体系统的坚实基石。依托MCP接口与多智能体协作机制,Qwen3.7-Max实现了企业办公场景的自动化,在SpreadSheetBench-v1基准测试中获得87分的高分,稳居行业前列。以前需要专业团队耗费一两周的复杂项目,如今由Qwen3.7-Max驱动的智能体仅需数小时即可实现端到端的交付。
在实战任务检验中,Qwen3.7-Max展现了当前智能体处理超长任务的极限水平。面对一款模型训练时从未涉足的硬件——平头哥真武M890芯片,千问3.7成功攻克了复杂的推理内核优化难题。在缺乏任何性能数据、硬件手册或参考案例的绝境下,千问3.7仅凭任务描述、SGLang Triton参考代码和测试脚本,从“零”起步,连续编码35小时,独立执行432次内核测试和1158次工具调用,完整掌控了编写、编译、分析及优化的全流程。(文猛)
责任编辑:江钰涵
新浪财经声明:本文系转载自合作媒体,旨在传递更多资讯,内容仅供参考,不作为投资建议。
郑重声明:1.依据《证券法》,严禁编造、传播虚假或误导性信息以扰乱市场;2.用户在本社区发布的资料及言论仅代表个人立场,与本平台无关,不构成投资建议。请用户独立判断,自负盈亏。
