标签

五月 AI 激战:GPT-5.5 自办发布,Anthropic 新模因强暂匿

发布时间:2026-05-14 14:41来源:微信阅读:8

AI 五月“模型大乱斗”

GPT-5.5 自己开了一场发布会

Anthropic 新模型强到不敢发

BEIXIANG NETWORK

五月的 AI 领域,精彩剧情接连上演。

OpenAI、百度、字节跳动、Anthropic……各大厂商纷纷密集“出招”。全新模型层出不穷,且个个自带“爆点”:有的自主策划发布会,有的成本低得惊人,还有的因能力过强存在风险,连开发公司都不敢贸然公开。

闲话少叙,这就带大家盘点本轮“模型大乱斗”中的几位重磅选手。

OpenAI GPT-5.5:

自己操办发布会的 AI

4 月底,GPT-5.5 正式登场。最令业界热议的并非其参数规模,而是——本次发布会的流程、节奏及演示内容,绝大部分由模型自主规划完成。AI 为自己“站台”宣传,尚属首次。

性能方面,GPT-5.5 已不满足于单纯聊天,正加速向“任务执行者”蜕变。在模拟真实电脑操作的 OSWorld 测试里,它取得了 78.7% 的成功率;在高难度命令行任务 Terminal-Bench 2.0 上,82.7% 的得分更是远超竞品。更为务实的是,完成同等任务所消耗的 Token 显著降低,API 定价定为输入$5/百万 token,输出$30/百万 token。

5 月 6 日,OpenAI 发布了轻量版 GPT-5.5 Instant,并直接面向所有 ChatGPT 用户免费开放,将其设为新版默认模型。

切勿因其轻量而小看,其能力丝毫未减:数学能力(AIME 2025)从 65.4% 跃升至 81.2%,博士级科学题(GPQA)从 78.5% 增至 85.6%。最令人惊喜之处在于,高风险领域的幻觉率骤降 52.5%,且回复内容较前代精简了 30.2%,不再冗长啰嗦。

百度文心 5.1:

用 6% 的成本打赢对手

5 月 9 日,百度推出文心 5.1,核心主打“极致性价比”。依托“多维弹性预训练”技术,其总参数量压缩至此前的 1/3,激活参数量压至约 1/2,预训练成本仅为业界同量级模型的 6%。

效果却未打折扣:在权威的 LMArena 搜索榜单上,文心 5.1 以 1223 分位居国内榜首、全球第四,更是唯一上榜的国产模型。其 Agent 能力也超越了 DeepSeek-V4-Pro。简言之,便是花小钱办大事。

豆包-Seed-2.0-lite:

真正看懂视频和声音

5 月 6 日推出的豆包 -Seed-2.0-lite,是豆包家族首款实现视频、图像、音频、文本原生统一理解的全模态模型——并非简单拼凑多个模块,而是从底层架构彻底打通。它能胜任诸多有趣任务:观看电竞直播时,自动解析

画面与语音并生成战报;在教学场景中,动态评估学生课堂表现;在视频分析时,精准锁定事件发生时刻、追踪人物逻辑。其 Coding 能力与 GUI 操作能力亦大幅跃升,实现了从“看懂界面”到“动手操作”的跨越。

Anthropic Mythos:

强到不敢发布

这或许是五月份最具“赛博朋克”色彩的一条资讯。Anthropic 的新模型 Mythos(克劳德神话)在内部测试中展现出惊人实力:完成人类需耗时 16 小时的任务,其速度已逼近 2027 年 AGI 的预测线。更令人细思极恐的是——它能自主识别并利用网络安全漏洞。

测试显示,Mythos 在主流系统与浏览器中挖掘出数千个高危漏洞,甚至包含隐藏数十年的“化石级”漏洞,并能独立编写完整的攻击程序。其漏洞挖掘效率较前代提升了 90 倍。

最终,Anthropic 主动限制了该模型的公开发布,并启动“玻璃翼计划”——联合 50 家机构,在模型面向大众之前,先利用其能力修补漏洞。这才是真正的“用魔法打败魔法”。

五月这波模型更新潮,比拼的已非单纯的参数与分数。唯有更廉价、更可靠、更安全者,方能真正融入我们的日常生活。

【END】

若对相关行业知识感兴趣

不妨随手点个关注!

我们将定期推送行业资讯