标签

谷歌发布超高速AI模型,284.2 token/秒刷新响应速度纪录

发布时间:2026-05-23 20:22来源:微信阅读:7

2026年5月23日 · AI大模型 · 人工智能AI研究社

Google I/O 2026刚结束,谷歌就一口气发布了三个新模型,没有预热,没有分阶段推送,直接全部亮相。最引人注目的是Gemini 3.5 Flash,推理速度达到284.2 token/秒,这个数字比GPT-5.5快了4倍。

速度这个东西,说出来可能没感觉,但实际用起来差别很大。你问它一个问题,284 token/秒意味着几乎感觉不到延迟,就像跟人聊天一样顺畅。更重要的是,Flash定位高并发、低成本实时交互,这不是为了跑分好看,而是真的要把AI推进生产环境,大规模部署,成本还要压得住。

第二个发布是Gemini Omni,全模态模型,具备物理一致性,能够生成10分钟长视频。物理一致性这几个字很关键,生成的视频不会因为违反物理规律而穿帮,比如物体突然消失、重力方向乱变这种问题。10分钟长视频也是一个门槛,之前的AI视频生成,几秒钟就到极限了,现在直接拉到10分钟,虽然画质和连贯性还有待观察,但方向是对的。

第三个是Gemini Spark,全天候AI智能体。这个名字听起来像是谷歌版的Agent,能够持续运行,不只是回答问题,还能主动执行任务。结合谷歌的生态,Spark未来可能会深度集成到搜索、Workspace、Android系统里面,变成一个无处不在的助手。

这次发布还有一个细节值得注意。谷歌同时宣布面向部分企业客户提供GLM-5.1高速版API,输出速度达到400 token/秒。等等,GLM是智谱的模型,不是谷歌的,这里可能是搜索结果的一个误差,也可能是谷歌与国内厂商的合作动向,暂时存疑,但速度数字本身值得关注。

284.2 token/秒,这个数字会被记住。因为它意味着AI的响应速度已经接近人类阅读的极限。你读文字的速度大概是每秒几个字到十几个字,200多个汉字每秒,已经远超人类消费信息的速度。对开发者来说,这意味着流式输出的体验会非常丝滑,对端用户来说,这意味着AI真正做到了"随问随答"。

视频生成走到10分钟,也是一个分水岭。短视频平台上的AI内容会越来越多,而且会越来越难分辨真假。1日消息生成、教学视频、甚至小型纪录片。这对内容创作行业的影响,会比大部分人想象的更快。

谷歌这次没有发布Ultra版本的Gemini,而是主打Flash和Omni,说明他们的策略从"跑分第一"转向了"实用第一"。速度、成本、视频生成,这些都是开发者真正关心的东西,而不是benchmark上的几个小数点。

国内厂商也在跟进。同期OpenAI的GPT-5.5推理速度提升3倍,国产大模型的周调用量已经超过美国,环比上涨81.7%。2026年5月,AI大模型已经从"谁更聪明"变成了"谁更快、谁更便宜、谁能真正用起来"。这步棋走对了,接下来看OpenAI怎么接招。

人工智能AI研究社 | 专注AI技术分享