Qwen新帅首秀获赞,Gemini 3.5意外翻车
五月下旬,中美两家科技巨头相继推出新模型。
阿里巴巴在阿里云峰会上发布了Qwen 3.7-Max,谷歌I/O大会则主推Gemini 3.5 Flash。按理说两家应该各领风骚,但舆论反应却截然不同——Qwen收获一片叫好,Gemini却遭到冷遇。
这种反差值得深入探讨。
Qwen 3.7-Max:新团队首次亮相
林俊旸离开后,核心接替者之一是来自谷歌的周浩。千问新领导团队备受业界关注。
虽然Qwen 3.6是在人事变动后发布,但与林俊旸仍有千丝万缕的联系。从某种意义上讲,Qwen 3.7才是新团队的真正首秀。
实际表现相当亮眼。
Qwen 3.7-Max-Preview上线后,在Arena AI盲测中直接登顶国产第一。
多项测试结果显示它确实实力不俗。本人实测感受是,数学能力显著提升,代码编写也更加可靠。
特别值得关注的是"35小时自主进化"案例。在一个完全陌生的芯片平台上,Qwen 3.7-Max从零起步,无文档无参考,自己编写内核、编译、测试性能、迭代优化,历经35小时、1158次工具调用、432次内核评估,最终将推理速度提升10倍。
这确实是实打实的能力提升。
新团队的印记:思考过程"隐藏"了,风格接近谷歌
有一个细节容易被忽视:思维方式。
以往Qwen思考时会完整展示思维链条,模型的推理和自查过程一目了然。这次3.7-Max-Preview改为只展示"思维链总结",真实推理过程被隐藏了。
而且与Gemini的风格非常相似。
今年3月,Qwen原后训练负责人郁博文离职,接任者是前DeepMind高级资深研究员周浩,曾直接参与Gemini系列研发。
逻辑链条很清晰。如果能追赶谷歌,这轮人事调整对阿里来说算是成功吗?值得期待。
Gemini 3.5 Flash:谷歌的"快"成为最大遮羞布
提到谷歌,最近模型领域没有大事,谷歌这个3.5版本格外引人关注。
Gemini 3.5 Flash在I/O大会上占据C位,主舞台、默认模型、核心产品全面接入。谷歌的宣传很完美:速度是竞品的4倍,Agent能力远超自家上一代旗舰3.1 Pro,价格也更便宜。
但发布会结束后,社区评价立即分化。
Reddit和Linux.do上,早期用户形成两派。一派承认"快得离谱",另一派直接批评:"快是快,但不够聪明。"有人算了一笔账:"3.5 Flash唯一的优势就是快,也就是能更快地消耗token,完成同样任务反而比3.1 Pro更贵,真的很绝。"
更尴尬的是实测结果。Linux.do社区对比发现,在复杂人文讨论中,3.5 Flash即使开启最高思考模式,深度和细腻度也明显不如上一代3.1 Pro,被评价为"过于机械和生硬"。
Benchmark数据也暴露了尴尬。在HLE(极高难度学术推理)测试中,3.5 Flash仅获得40.2%,不仅全场最低,还比自家上一代3.0 Flash的43.5%更低——代际更新反而退步,这在AI圈相当罕见。
想当初Gemini 3.1 Pro发布时,网上一片"谷歌终于睡醒了"的欢呼。这次3.5版本,甚至有人直呼美版豆包,言外之意几乎溢出屏幕。
总结
模型竞争的后半程,大厂确实越来越吃力。或许是带着包袱在赛跑。
不过作为观察者,说句公道话,对两家还是看好的,继续加油。