谷歌发布超高速AI模型，284.2 token/秒刷新响应速度纪录

发布时间：2026-05-23 20:22阅读：23

2026年5月23日 · AI大模型 · 人工智能AI研究社

Google I/O 2026刚结束，谷歌就一口气发布了三个新模型，没有预热，没有分阶段推送，直接全部亮相。最引人注目的是Gemini 3.5 Flash，推理速度达到284.2 token/秒，这个数字比GPT-5.5快了4倍。

速度这个东西，说出来可能没感觉，但实际用起来差别很大。你问它一个问题，284 token/秒意味着几乎感觉不到延迟，就像跟人聊天一样顺畅。更重要的是，Flash定位高并发、低成本实时交互，这不是为了跑分好看，而是真的要把AI推进生产环境，大规模部署，成本还要压得住。

第二个发布是Gemini Omni，全模态模型，具备物理一致性，能够生成10分钟长视频。物理一致性这几个字很关键，生成的视频不会因为违反物理规律而穿帮，比如物体突然消失、重力方向乱变这种问题。10分钟长视频也是一个门槛，之前的AI视频生成，几秒钟就到极限了，现在直接拉到10分钟，虽然画质和连贯性还有待观察，但方向是对的。

第三个是Gemini Spark，全天候AI智能体。这个名字听起来像是谷歌版的Agent，能够持续运行，不只是回答问题，还能主动执行任务。结合谷歌的生态，Spark未来可能会深度集成到搜索、Workspace、Android系统里面，变成一个无处不在的助手。

这次发布还有一个细节值得注意。谷歌同时宣布面向部分企业客户提供GLM-5.1高速版API，输出速度达到400 token/秒。等等，GLM是智谱的模型，不是谷歌的，这里可能是搜索结果的一个误差，也可能是谷歌与国内厂商的合作动向，暂时存疑，但速度数字本身值得关注。

284.2 token/秒，这个数字会被记住。因为它意味着AI的响应速度已经接近人类阅读的极限。你读文字的速度大概是每秒几个字到十几个字，200多个汉字每秒，已经远超人类消费信息的速度。对开发者来说，这意味着流式输出的体验会非常丝滑，对端用户来说，这意味着AI真正做到了"随问随答"。

视频生成走到10分钟，也是一个分水岭。短视频平台上的AI内容会越来越多，而且会越来越难分辨真假。1日消息生成、教学视频、甚至小型纪录片。这对内容创作行业的影响，会比大部分人想象的更快。

谷歌这次没有发布Ultra版本的Gemini，而是主打Flash和Omni，说明他们的策略从"跑分第一"转向了"实用第一"。速度、成本、视频生成，这些都是开发者真正关心的东西，而不是benchmark上的几个小数点。

国内厂商也在跟进。同期OpenAI的GPT-5.5推理速度提升3倍，国产大模型的周调用量已经超过美国，环比上涨81.7%。2026年5月，AI大模型已经从"谁更聪明"变成了"谁更快、谁更便宜、谁能真正用起来"。这步棋走对了，接下来看OpenAI怎么接招。

人工智能AI研究社 | 专注AI技术分享

← 上一篇：人工智能学院第四届“拓能杯”研支趣味赛热闹开赛下一篇：AI技术深度融入教改申报的实践探索 →