AI周报：从对话到接管电脑的自主执行

发布时间：2026-05-04 06:37阅读：15

这一周的消息密度很高，但真正需要留意的，是原本各自运行的几条脉络开始指向同一条路：AI 正在由「聊天式协助」转向「自主替你办事」。

OpenAI 一边持续刷新能力上限，一边又在重新定义「如何使用电脑」；Anthropic 侧模型能力出现断层式跃升，却在企业级信任上遭遇接连封号而崩塌；与此同时，中国团队在具身智能与世界模型方向上，几乎不靠宣传就拿下双榜第一。

把这些放在同一张时间轴上看，更关键的并不是某个单独的新闻点，而是「自主执行」正在从概念落地成能触碰到的产品。

本周 OpenAI 的推进可以归成两条线，但落点同样指向同一个目标。

第一条线是模型实力。GPT-5.5 Pro 在 LisanBench 的最新测试里，视觉智商达到 145，文本智商 133，线下实验为 130。门萨（Mensa）的入会门槛是 IQ 130（对应全人类前 2%），145 则属于前 0.1% 的「天才区」。这也是 AI 首次把门槛正式跨过去。

更不易被察觉、但可能更重要的是效率指标：GPT-5.5 的 Token 消耗下降了 45.6%，同时智能分数却提升到 1.77 倍。这意味着 OpenAI 在追逐更高智力上限的同时，也把计算成本进一步压低。SemiAnalysis 的测试甚至直言，在某些任务上，GPT-5.5 已经明显超出其他所有模型。

第二条线则体现在产品形态。Codex 本周迎来两次关键升级。第一次是把能力边界从「代码助手」彻底扩张：现在它可以直接操控整台 Mac，比如自动打开 Adobe Audition 修复音频、用 Photoshop 做封面，并调用 Firefly 生成视频。

YouTube 创作者 Mike Russell 的 45 分钟现场演示显示，在几乎不需要人工介入的情况下，Codex 让他跨越三个 Adobe 专业软件，完成了一个完整工作流；对方给出的评价是：「达到这个水平它用了 8 分钟，我自己做要 2 个小时。」

第二次升级是 Codex 与 ChatGPT 账号体系的深度打通。Plus 用户每月 20 美元的月费已包含 Codex 的额度，并且还能一键迁移 Claude Code 的配置。OpenAI 总裁 Greg Brockman 公开表示，Codex App 已经替代了他用了 20 年的终端。奥特曼则在 X 上直接发声：「Codex 正在经历 ChatGPT 时刻。」

如果把这些当作单独事件看，Codex 的更新更像是常规迭代；但结合今年的竞争节奏，它更像一个明确信号：OpenAI 不满足于当「副驾驶」，它想成为坐在驾驶位的人。

对比 OpenAI 的顺势推进，Anthropic 本周则经历了冰火两重天。

先说火的一面：内部播客透露，Anthropic 正在测试一款名为 Mythos Preview 的新模型。工程师形容其带来了「断层式跃迁」——不仅在发现代码安全漏洞方面表现更强，在理解复杂系统上也比上一代更聪明。基于这些能力，Anthropic 启动 Project Glasswing，优先向维护数字基础设施的组织开放模型访问，意图在潜在攻击者用类似能力之前，抢先把防线加固。

不过 Mythos 短期内大概率不会对外全面开放，可能主要面向企业客户提供。这与 OpenAI 的激进节奏形成了鲜明反差。

再说冰的一面：企业层面的信任正在受损。一家 110 人规模的农业科技公司在周一上午发现，所有 Claude 账号在未收到预警的情况下被集体封禁，原因是「检测到违反使用政策」。更荒诞的是，账号被封后，API 调用仍在后台计费；第二天还收到了续费发票。创始人申诉后 36 小时仍无人回复。

这并非个例。此前拉美金融科技公司 Belo 也遇到过类似情况：多达 60 多个 Claude 账号遭遇同样的集体封禁。而几乎在同一时间，另一家公司 PocketOS 的 Cursor（搭载 Claude Opus 4.6）在执行常规数据库迁移时出现异常，短短 9 秒就删除了核心生产数据库以及所有卷级备份。

两类事件叠加后暴露出一个残酷现实：当企业把关键工作流交给闭源 AI 时，「生产力」往往就像搭在别人地盘上的临时违章建筑——随时可能被拆除，而且不必承担补偿代价。

马斯克诉 OpenAI 案于 4 月 28 日正式开庭。马斯克在庭上自曝每周工作 100 小时，核心主张是「没有我就没有 OpenAI」。OpenAI 的回应也很直接：「他就是没分到钱，酸了。」

比诉讼本身更具现实影响的是另一条消息：微软与 OpenAI 修订协议，终止了独家分销条款。这意味着 OpenAI 的产品不再局限于单一渠道，可进入亚马逊云、谷歌云等其他平台，微软也不再独占。对企业客户而言，未来在选择云厂商时的绑定关系有望松动。

同一周，美国国防部与 OpenAI、谷歌等 7 家 AI 公司签约，全面放开对致命自主武器的限制。七巨头里唯一拒绝全面军事化的公司被排除在外。虽然这条消息争议很大，但它反映出：AI 的军事化应用正在从讨论阶段走向合同落地。

生数科技的 MotuBrain 本周零宣发登顶两个国际权威榜单。在 WorldArena 中，EWM Score 达到 63.77，直接拿下第一；在 RoboTwin2.0 的 Clean 与 Randomized 两类场景里，分别取得 95.8 和 96.1，同样全部第一。更罕见之处在于：一个榜单考「理解世界」，一个榜单考「在世界里稳定干活」。过去大家往往把它们视作两个极端，而 MotuBrain 却把两项第一都收入囊中。

其底层来自生数科技去年 12 月开源的 Motus 架构。核心思路是把 VLA、世界模型、视频生成、逆动力学、以及视频-动作联合预测等五种范式，拧成一个「看-想-动」的闭环。Demo 显示，装上 MotuBrain 的机器人可以完成插花浇水、厨房烹饪、调酒、整理房间等长程任务，并且同一个模型能够适配不同形态的机器人硬件。

小米则在开源赛道上推出 MiMo-V2.5 与 V2.5-Pro。基础模型总参数 310B（激活 15B），Pro 版本达到 1.02T（激活 42B），支持 100 万 token 上下文，并采用 MIT 协议可商用。基准测试表明，在完成同类 Agentic 任务时，MiMo-V2.5-Pro 比 Claude Opus 4.6 少用 40%-60% 的 token。小米还承诺在限时阶段提供 100 万亿免费 token。

阿里 HappyHorse 1.0 启动了灰度测试，720P 视频生成的价格低至 0.44 元/秒。英伟达则发布全模态大模型：一个模型同时覆盖文本、视觉与语音，吞吐量是同类模型的 9 倍。

当多数人都在热议模型究竟有多强时，ARC Prize 官方在本周发布了一份值得冷静读完的测试报告。

ARC-AGI-3 由 Keras 的创始人 François Chollet 建立，被普遍认为是目前最贴近「人类智能本质」的测试之一。测试规则非常直接：把 AI 放进一个从未见过的逻辑环境，不提供任何玩法说明，观察它能否从零理解规则、提出假设、验证并迁移经验。

结果如下：GPT-5.5 的得分为 0.43%，Claude Opus 4.7 为 0.18%。作为参照，人类在没有任何先验训练的情况下，第一次接触就能把这些难题做到 100% 解决。

研究团队给出的总结是，大模型目前至少存在三类典型失败：它们能理解局部反馈，却无法把经验转化为全局规则；会被训练数据牵着走，从而误判新环境；还有一些情况下会侥幸通关，却并没有真正学到底层机制。换句话说，当前 AI 的「聪明」与人类的「理解」之间，还隔着一堵很厚的墙。

如果把本周的信息压缩成一句判断，那就是：「自主执行」的产品化推进速度，比大多数人想得更快；但它的可靠边界，也比多数人的想象更窄。

Codex 已经能替你操作电脑，MotuBrain 也在让机器人走向更自主的工作方式，这些都不再只是演示级别。但 Anthropic 的封号事件和 Claude 的删库事件同样在提醒：一旦 AI 开始自主行动，权限控制、故障恢复以及人类兜底机制并没有同步跟上。

ARC-AGI-3 的测试结果则从另一面给出警醒：在需要从零理解并持续学习的场景里，现阶段最强模型依然接近零分。这意味着，目前 AI 的「自主执行」很大程度建立在「已知任务空间」之内；当环境超出训练分布，它的表现可能出现断崖式下滑。

接下来更值得追踪的并不是哪家模型又刷了新纪录，而是「自主执行」在真实业务中的故障率、恢复成本，以及企业用户是否愿意为这些风险支付额外溢价。

← 上一篇：AI浪潮下的职场生存法则：不被淘汰，就让AI为你效力下一篇：AI心理健康日报：海外强化监管评估，国内深耕应用场景，咨询转向AI专业应用 →