标签

大模型对决的新规则

发布时间:2026-05-09 04:17来源:微信阅读:5

最近在刷科技资讯时,我的体感越来越明显:AI大模型的打法,确实在悄悄换轨。

以前大家拼的通常是两件事——谁家的参数更大、谁家的榜单分数更高。可翻看这周的更新就不一样了:OpenAI直接把最新模型免费放出来,腾讯的大模型两周就翻了10倍;谷歌则开始在开源模型的推理速度上发力;月之暗面连硬件相关的商标都在申请。放在一起看,我更愿意把它理解为:规则在变,赛道也在重排位置。

就在5月6日凌晨(我看到消息时差点睡过去),OpenAI甩出一记深水炸弹:GPT-5.5 Instant正式上线,不仅直接顶替GPT-5.3当作默认模型,还面向全员免费。

说实话,刚看到这条消息时我有点愣神。以前GPT-5.3还会为付费用户留着,这回怎么就直接全量开放了?

再往下看参数,我算是服了:

幻觉率直接下降52.5%。这个幅度很夸张。过去用ChatGPT问一些偏专业的内容,它有时能把话说得很顺,但在医疗、法律、金融这类高风险场景里胡编乱造的毛病,这次明显被“按住”了。

数学能力也很夸张——AIME成绩从65分上升到81分,提升不止15个百分点。我本来数学就不算强,看见这个分数都忍不住有点心动。

还有个细节值得注意:ChatGPT的表达变得更短了。官方口径是回复字数砍掉30%,不再绕来绕去。以前问个简单问题,可能会给你来一篇小作文;现在更像是直接给结论。

不过让我真正意外的,还是它的记忆能力。它开始"记住你"了。

比如你让它推荐一家茶饮店,它可能会翻出你之前的聊天记录,知道你更喜欢清爽路线、偏爱台湾高山茶的口感,然后给出更贴合的建议。不是那种"根据您的需求,为您推荐以下几家"的机械模板,而是更像在理解你的偏好。

至于免费策略背后,我猜OpenAI也在算账。根据市场数据,Anthropic已经拿下了31.4%的份额,OpenAI排在第二,约29%。当头部集中的趋势越来越明显时,不“放血”很难抢到足够多的新用户;让更多人尽快体验最新版,可能比只让少数人用到顶配更划算。

GPT-5.5的消息还没完全消化,腾讯那边又传出新的进展。

5月7日,腾讯混元公布数据:Hy3 preview上线仅两周,Token调用量已经超过上一代Hy2的10倍。更夸张的是,它在OpenRouter周榜上一举拿下双料第一——无论是Token调用量还是市场占有率,都是第一名。

腾讯内部的应用层面同样猛。WorkBuddy、Codebuddy、Qclaw等智能体应用的调用量增幅,直接冲到16.5倍。说白了,这轮爆发的关键引擎,就是代码编写与智能体构建。

这波逆袭靠的是什么?我研究后觉得,主要是技术层面的重构。

Hy3 preview使用的是"快慢思考融合"的混合专家架构,总参数295B,但激活参数只有21B。换句话说:模型体量很大,运行却不“拖沓”;复杂任务和简单任务分开用不同的"处理方式",效率更高。

价格端也很卷。API调用的输入最低1.2元/百万tokens,个人版月费从28块起步。价格战打得这么狠,确实有点“硬”。

5月5日,谷歌对开源模型Gemma 4系列也做了个"加速包"——多Token预测起草器。

大致原理是这样的:用一个更轻量的小模型先猜测下一段可能是什么,再让主模型并行去验证。在Apple Silicon芯片环境下,本地运行速度最高可提升3倍,同时输出质量不打折。

Gemma 4发布后下载量已经突破6000万次,是全球最受关注的开源模型之一。推理速度的提升,会直接带动两个核心指标:用户体验与部署成本。

对于谷歌这步棋,我的感受很直观:在开源赛道上打"速度牌"。模型再强,如果要等三秒才出第一个字,用户早就跑了。

5月7日又有一条信息让我多看了两眼:月之暗面申请了多枚"KimiClaw"商标,覆盖科学仪器、网站服务、通讯服务三大类目。

其中“科学仪器”这个方向很抓眼球,也因此引发了"AI公司要做硬件"的猜测。

当然,目前只是商标申请阶段,未必就一定要推出消费级硬件。但月之暗面最近的动作确实不少:2月推出云端化OpenClaw产品,4月开源了Kimi K2.6(支持多Agent协同,最多可以同时跑300个子Agent)。

再叠加外界关于即将完成的20亿美元新融资、以及估值突破200亿美元的传闻,这个故事看起来就很完整。

不止月之暗面。OpenAI之前也被爆出与高通、联发科合作做手机;字节同样申请过相关商标。AI公司逐渐不满足于只做软件,开始往硬件方向探路,这已经是明显趋势。

不过前车之鉴还摆在那儿:Rabbit R1和Humane AI Pin都证明,想在硬件赛道站稳,必须拿得出真能力。

回头看这轮变化,有个数字特别醒目:四大科技巨头在2026年的AI基建总投入约7250亿美元,同比上涨77%。而OpenAI仅今年预估的算力支出就可能达到500亿美元。

这些数字意味着什么?可以说,大模型赛道的入场门槛已经高到普通公司难以承受。真正能长期留在“牌桌上”的,全球可能不超过五家。

格局在变,这点我能明显感觉到:

从"卷参数"转向"卷体验"。模型实力当然重要,但当基础能力差距越来越小,胜负更多取决于真实使用感受——响应速度、能否把问题落到解决上。

从"卷价格"转向"卷可靠性"。GPT-5.5幻觉率暴降52.5%,本质上是在提醒行业:未来AI的竞争,将更看重“靠谱程度”。

从"卷模型"转向"卷生态"。腾讯混元两周翻10倍,并不只是因为某个单一模型多强,而是能更快接入十几款核心产品。生态协同,才是更长期的护城河。

大模型竞赛的玩法确实在改变。参数多不多已经不是最关键的因素,核心在于能不能真正用起来、能不能让用户用得舒服。

对普通用户来说,这是一件好事——AI能力在免费且快速地迭代,体验也在持续变好。

对从业者来说,这也是一个信号:懂AI Agent开发、懂得把能力落到具体场景里的人,会越来越值钱。

至于谁会在这一轮洗牌里笑到最后?我不敢做绝对判断,但我更倾向于:未必是参数最多的那一方,而很可能是最懂用户需求的那一方。