标签

AI周报:从对话到接管电脑的自主执行

发布时间:2026-05-04 06:37来源:微信阅读:7

这一周的消息密度很高,但真正需要留意的,是原本各自运行的几条脉络开始指向同一条路:AI 正在由「聊天式协助」转向「自主替你办事」。

OpenAI 一边持续刷新能力上限,一边又在重新定义「如何使用电脑」;Anthropic 侧模型能力出现断层式跃升,却在企业级信任上遭遇接连封号而崩塌;与此同时,中国团队在具身智能与世界模型方向上,几乎不靠宣传就拿下双榜第一。

把这些放在同一张时间轴上看,更关键的并不是某个单独的新闻点,而是「自主执行」正在从概念落地成能触碰到的产品。

本周 OpenAI 的推进可以归成两条线,但落点同样指向同一个目标。

第一条线是模型实力。GPT-5.5 Pro 在 LisanBench 的最新测试里,视觉智商达到 145,文本智商 133,线下实验为 130。门萨(Mensa)的入会门槛是 IQ 130(对应全人类前 2%),145 则属于前 0.1% 的「天才区」。这也是 AI 首次把门槛正式跨过去。

更不易被察觉、但可能更重要的是效率指标:GPT-5.5 的 Token 消耗下降了 45.6%,同时智能分数却提升到 1.77 倍。这意味着 OpenAI 在追逐更高智力上限的同时,也把计算成本进一步压低。SemiAnalysis 的测试甚至直言,在某些任务上,GPT-5.5 已经明显超出其他所有模型。

第二条线则体现在产品形态。Codex 本周迎来两次关键升级。第一次是把能力边界从「代码助手」彻底扩张:现在它可以直接操控整台 Mac,比如自动打开 Adobe Audition 修复音频、用 Photoshop 做封面,并调用 Firefly 生成视频。

YouTube 创作者 Mike Russell 的 45 分钟现场演示显示,在几乎不需要人工介入的情况下,Codex 让他跨越三个 Adobe 专业软件,完成了一个完整工作流;对方给出的评价是:「达到这个水平它用了 8 分钟,我自己做要 2 个小时。」

第二次升级是 Codex 与 ChatGPT 账号体系的深度打通。Plus 用户每月 20 美元的月费已包含 Codex 的额度,并且还能一键迁移 Claude Code 的配置。OpenAI 总裁 Greg Brockman 公开表示,Codex App 已经替代了他用了 20 年的终端。奥特曼则在 X 上直接发声:「Codex 正在经历 ChatGPT 时刻。」

如果把这些当作单独事件看,Codex 的更新更像是常规迭代;但结合今年的竞争节奏,它更像一个明确信号:OpenAI 不满足于当「副驾驶」,它想成为坐在驾驶位的人。

对比 OpenAI 的顺势推进,Anthropic 本周则经历了冰火两重天。

先说火的一面:内部播客透露,Anthropic 正在测试一款名为 Mythos Preview 的新模型。工程师形容其带来了「断层式跃迁」——不仅在发现代码安全漏洞方面表现更强,在理解复杂系统上也比上一代更聪明。基于这些能力,Anthropic 启动 Project Glasswing,优先向维护数字基础设施的组织开放模型访问,意图在潜在攻击者用类似能力之前,抢先把防线加固。

不过 Mythos 短期内大概率不会对外全面开放,可能主要面向企业客户提供。这与 OpenAI 的激进节奏形成了鲜明反差。

再说冰的一面:企业层面的信任正在受损。一家 110 人规模的农业科技公司在周一上午发现,所有 Claude 账号在未收到预警的情况下被集体封禁,原因是「检测到违反使用政策」。更荒诞的是,账号被封后,API 调用仍在后台计费;第二天还收到了续费发票。创始人申诉后 36 小时仍无人回复。

这并非个例。此前拉美金融科技公司 Belo 也遇到过类似情况:多达 60 多个 Claude 账号遭遇同样的集体封禁。而几乎在同一时间,另一家公司 PocketOS 的 Cursor(搭载 Claude Opus 4.6)在执行常规数据库迁移时出现异常,短短 9 秒就删除了核心生产数据库以及所有卷级备份。

两类事件叠加后暴露出一个残酷现实:当企业把关键工作流交给闭源 AI 时,「生产力」往往就像搭在别人地盘上的临时违章建筑——随时可能被拆除,而且不必承担补偿代价。

马斯克诉 OpenAI 案于 4 月 28 日正式开庭。马斯克在庭上自曝每周工作 100 小时,核心主张是「没有我就没有 OpenAI」。OpenAI 的回应也很直接:「他就是没分到钱,酸了。」

比诉讼本身更具现实影响的是另一条消息:微软与 OpenAI 修订协议,终止了独家分销条款。这意味着 OpenAI 的产品不再局限于单一渠道,可进入亚马逊云、谷歌云等其他平台,微软也不再独占。对企业客户而言,未来在选择云厂商时的绑定关系有望松动。

同一周,美国国防部与 OpenAI、谷歌等 7 家 AI 公司签约,全面放开对致命自主武器的限制。七巨头里唯一拒绝全面军事化的公司被排除在外。虽然这条消息争议很大,但它反映出:AI 的军事化应用正在从讨论阶段走向合同落地。

生数科技的 MotuBrain 本周零宣发登顶两个国际权威榜单。在 WorldArena 中,EWM Score 达到 63.77,直接拿下第一;在 RoboTwin2.0 的 Clean 与 Randomized 两类场景里,分别取得 95.8 和 96.1,同样全部第一。更罕见之处在于:一个榜单考「理解世界」,一个榜单考「在世界里稳定干活」。过去大家往往把它们视作两个极端,而 MotuBrain 却把两项第一都收入囊中。

其底层来自生数科技去年 12 月开源的 Motus 架构。核心思路是把 VLA、世界模型、视频生成、逆动力学、以及视频-动作联合预测等五种范式,拧成一个「看-想-动」的闭环。Demo 显示,装上 MotuBrain 的机器人可以完成插花浇水、厨房烹饪、调酒、整理房间等长程任务,并且同一个模型能够适配不同形态的机器人硬件。

小米则在开源赛道上推出 MiMo-V2.5 与 V2.5-Pro。基础模型总参数 310B(激活 15B),Pro 版本达到 1.02T(激活 42B),支持 100 万 token 上下文,并采用 MIT 协议可商用。基准测试表明,在完成同类 Agentic 任务时,MiMo-V2.5-Pro 比 Claude Opus 4.6 少用 40%-60% 的 token。小米还承诺在限时阶段提供 100 万亿免费 token。

阿里 HappyHorse 1.0 启动了灰度测试,720P 视频生成的价格低至 0.44 元/秒。英伟达则发布全模态大模型:一个模型同时覆盖文本、视觉与语音,吞吐量是同类模型的 9 倍。

当多数人都在热议模型究竟有多强时,ARC Prize 官方在本周发布了一份值得冷静读完的测试报告。

ARC-AGI-3 由 Keras 的创始人 François Chollet 建立,被普遍认为是目前最贴近「人类智能本质」的测试之一。测试规则非常直接:把 AI 放进一个从未见过的逻辑环境,不提供任何玩法说明,观察它能否从零理解规则、提出假设、验证并迁移经验。

结果如下:GPT-5.5 的得分为 0.43%,Claude Opus 4.7 为 0.18%。作为参照,人类在没有任何先验训练的情况下,第一次接触就能把这些难题做到 100% 解决。

研究团队给出的总结是,大模型目前至少存在三类典型失败:它们能理解局部反馈,却无法把经验转化为全局规则;会被训练数据牵着走,从而误判新环境;还有一些情况下会侥幸通关,却并没有真正学到底层机制。换句话说,当前 AI 的「聪明」与人类的「理解」之间,还隔着一堵很厚的墙。

如果把本周的信息压缩成一句判断,那就是:「自主执行」的产品化推进速度,比大多数人想得更快;但它的可靠边界,也比多数人的想象更窄。

Codex 已经能替你操作电脑,MotuBrain 也在让机器人走向更自主的工作方式,这些都不再只是演示级别。但 Anthropic 的封号事件和 Claude 的删库事件同样在提醒:一旦 AI 开始自主行动,权限控制、故障恢复以及人类兜底机制并没有同步跟上。

ARC-AGI-3 的测试结果则从另一面给出警醒:在需要从零理解并持续学习的场景里,现阶段最强模型依然接近零分。这意味着,目前 AI 的「自主执行」很大程度建立在「已知任务空间」之内;当环境超出训练分布,它的表现可能出现断崖式下滑。

接下来更值得追踪的并不是哪家模型又刷了新纪录,而是「自主执行」在真实业务中的故障率、恢复成本,以及企业用户是否愿意为这些风险支付额外溢价。