五月 AI 激战：GPT-5.5 自办发布，Anthropic 新模因强暂匿

发布时间：2026-05-14 14:41阅读：34

AI 五月“模型大乱斗”

GPT-5.5 自己开了一场发布会

Anthropic 新模型强到不敢发

BEIXIANG NETWORK

五月的 AI 领域，精彩剧情接连上演。

OpenAI、百度、字节跳动、Anthropic……各大厂商纷纷密集“出招”。全新模型层出不穷，且个个自带“爆点”：有的自主策划发布会，有的成本低得惊人，还有的因能力过强存在风险，连开发公司都不敢贸然公开。

闲话少叙，这就带大家盘点本轮“模型大乱斗”中的几位重磅选手。

OpenAI GPT-5.5：

自己操办发布会的 AI

4 月底，GPT-5.5 正式登场。最令业界热议的并非其参数规模，而是——本次发布会的流程、节奏及演示内容，绝大部分由模型自主规划完成。AI 为自己“站台”宣传，尚属首次。

性能方面，GPT-5.5 已不满足于单纯聊天，正加速向“任务执行者”蜕变。在模拟真实电脑操作的 OSWorld 测试里，它取得了 78.7% 的成功率；在高难度命令行任务 Terminal-Bench 2.0 上，82.7% 的得分更是远超竞品。更为务实的是，完成同等任务所消耗的 Token 显著降低，API 定价定为输入$5/百万 token，输出$30/百万 token。

5 月 6 日，OpenAI 发布了轻量版 GPT-5.5 Instant，并直接面向所有 ChatGPT 用户免费开放，将其设为新版默认模型。

切勿因其轻量而小看，其能力丝毫未减：数学能力（AIME 2025）从 65.4% 跃升至 81.2%，博士级科学题（GPQA）从 78.5% 增至 85.6%。最令人惊喜之处在于，高风险领域的幻觉率骤降 52.5%，且回复内容较前代精简了 30.2%，不再冗长啰嗦。

百度文心 5.1：

用 6% 的成本打赢对手

5 月 9 日，百度推出文心 5.1，核心主打“极致性价比”。依托“多维弹性预训练”技术，其总参数量压缩至此前的 1/3，激活参数量压至约 1/2，预训练成本仅为业界同量级模型的 6%。

效果却未打折扣：在权威的 LMArena 搜索榜单上，文心 5.1 以 1223 分位居国内榜首、全球第四，更是唯一上榜的国产模型。其 Agent 能力也超越了 DeepSeek-V4-Pro。简言之，便是花小钱办大事。

豆包-Seed-2.0-lite：

真正看懂视频和声音

5 月 6 日推出的豆包 -Seed-2.0-lite，是豆包家族首款实现视频、图像、音频、文本原生统一理解的全模态模型——并非简单拼凑多个模块，而是从底层架构彻底打通。它能胜任诸多有趣任务：观看电竞直播时，自动解析

画面与语音并生成战报；在教学场景中，动态评估学生课堂表现；在视频分析时，精准锁定事件发生时刻、追踪人物逻辑。其 Coding 能力与 GUI 操作能力亦大幅跃升，实现了从“看懂界面”到“动手操作”的跨越。

Anthropic Mythos：

强到不敢发布

这或许是五月份最具“赛博朋克”色彩的一条资讯。Anthropic 的新模型 Mythos（克劳德神话）在内部测试中展现出惊人实力：完成人类需耗时 16 小时的任务，其速度已逼近 2027 年 AGI 的预测线。更令人细思极恐的是——它能自主识别并利用网络安全漏洞。

测试显示，Mythos 在主流系统与浏览器中挖掘出数千个高危漏洞，甚至包含隐藏数十年的“化石级”漏洞，并能独立编写完整的攻击程序。其漏洞挖掘效率较前代提升了 90 倍。

最终，Anthropic 主动限制了该模型的公开发布，并启动“玻璃翼计划”——联合 50 家机构，在模型面向大众之前，先利用其能力修补漏洞。这才是真正的“用魔法打败魔法”。

五月这波模型更新潮，比拼的已非单纯的参数与分数。唯有更廉价、更可靠、更安全者，方能真正融入我们的日常生活。

【END】

若对相关行业知识感兴趣

不妨随手点个关注！

我们将定期推送行业资讯

← 上一篇：德阳公开课揭秘：八大 AI 神器助力办公效率飞跃下一篇：阿里AI商业化突破：年入300亿背后的真实信号 →