Qwen新帅首秀获赞，Gemini 3.5意外翻车

发布时间：2026-05-24 20:50阅读：17

五月下旬，中美两家科技巨头相继推出新模型。

阿里巴巴在阿里云峰会上发布了Qwen 3.7-Max，谷歌I/O大会则主推Gemini 3.5 Flash。按理说两家应该各领风骚，但舆论反应却截然不同——Qwen收获一片叫好，Gemini却遭到冷遇。

这种反差值得深入探讨。

Qwen 3.7-Max：新团队首次亮相

林俊旸离开后，核心接替者之一是来自谷歌的周浩。千问新领导团队备受业界关注。

虽然Qwen 3.6是在人事变动后发布，但与林俊旸仍有千丝万缕的联系。从某种意义上讲，Qwen 3.7才是新团队的真正首秀。

实际表现相当亮眼。

Qwen 3.7-Max-Preview上线后，在Arena AI盲测中直接登顶国产第一。

多项测试结果显示它确实实力不俗。本人实测感受是，数学能力显著提升，代码编写也更加可靠。

特别值得关注的是"35小时自主进化"案例。在一个完全陌生的芯片平台上，Qwen 3.7-Max从零起步，无文档无参考，自己编写内核、编译、测试性能、迭代优化，历经35小时、1158次工具调用、432次内核评估，最终将推理速度提升10倍。

这确实是实打实的能力提升。

新团队的印记：思考过程"隐藏"了，风格接近谷歌

有一个细节容易被忽视：思维方式。

以往Qwen思考时会完整展示思维链条，模型的推理和自查过程一目了然。这次3.7-Max-Preview改为只展示"思维链总结"，真实推理过程被隐藏了。

而且与Gemini的风格非常相似。

今年3月，Qwen原后训练负责人郁博文离职，接任者是前DeepMind高级资深研究员周浩，曾直接参与Gemini系列研发。

逻辑链条很清晰。如果能追赶谷歌，这轮人事调整对阿里来说算是成功吗？值得期待。

Gemini 3.5 Flash：谷歌的"快"成为最大遮羞布

提到谷歌，最近模型领域没有大事，谷歌这个3.5版本格外引人关注。

Gemini 3.5 Flash在I/O大会上占据C位，主舞台、默认模型、核心产品全面接入。谷歌的宣传很完美：速度是竞品的4倍，Agent能力远超自家上一代旗舰3.1 Pro，价格也更便宜。

但发布会结束后，社区评价立即分化。

Reddit和Linux.do上，早期用户形成两派。一派承认"快得离谱"，另一派直接批评："快是快，但不够聪明。"有人算了一笔账："3.5 Flash唯一的优势就是快，也就是能更快地消耗token，完成同样任务反而比3.1 Pro更贵，真的很绝。"

更尴尬的是实测结果。Linux.do社区对比发现，在复杂人文讨论中，3.5 Flash即使开启最高思考模式，深度和细腻度也明显不如上一代3.1 Pro，被评价为"过于机械和生硬"。

Benchmark数据也暴露了尴尬。在HLE（极高难度学术推理）测试中，3.5 Flash仅获得40.2%，不仅全场最低，还比自家上一代3.0 Flash的43.5%更低——代际更新反而退步，这在AI圈相当罕见。

想当初Gemini 3.1 Pro发布时，网上一片"谷歌终于睡醒了"的欢呼。这次3.5版本，甚至有人直呼美版豆包，言外之意几乎溢出屏幕。

总结

模型竞争的后半程，大厂确实越来越吃力。或许是带着包袱在赛跑。

不过作为观察者，说句公道话，对两家还是看好的，继续加油。