AI编程已登峰造极,操控电脑为何仍像外行?硅谷名嘴一问引爆热议
想象一个场景:你启动一千个 AI agent,让它们同时登录 Amazon,找到同一件商品,走完整个结账流程。
结果呢?Andy Jassy 的风控团队会在几秒之内发现异常,把你的 bot 全部封杀干净。
这个画面听起来很荒诞,但它精准地击中了当下 AI 发展中一个极少有人谈论的结构性难题。6月27日,硅谷最具影响力的播客主持人之一 Dwarkesh Patel 在 X 上抛出一个问题,45.4万人看了,902人点了赞——
"Why has progress on computer use been so slow? Computer use is so clearly verifiable."
「为什么 AI 操作电脑的进展这么慢?电脑操作明明是如此容易验证的。」
▲ Dwarkesh Patel 的推文引发大量讨论,45.4万次浏览,902赞
这个问题的杀伤力在于它的反直觉。
过去两年,AI 圈最响亮的口号就是"可验证领域进步最快"——数学、代码、竞赛,只要能判对错的地方,模型成绩就蹭蹭往上飙。
但操作电脑明明也能验证啊。东西买到了吗?表格填好了吗?邮件发出去了吗?全都有确定的对错。
那为什么偏偏这个领域,感觉一直在"挣扎"?
先说好消息。
2024年10月,Anthropic 首次推出 computer use 公测。当时的成绩单相当惨淡:在 OSWorld 基准测试中,Claude 3.5 Sonnet 截图模式的成功率只有14.9%。人类基线是72%以上。
Anthropic 自己都说了,这东西"experimental — at times cumbersome and error-prone"(实验性质——有时候笨拙且容易出错)。
▲ Anthropic 2024年10月首次推出 computer use,自称"第一个在公测中提供电脑使用能力的前沿 AI 模型"
然后到了 2026年3月,OpenAI 发布 GPT-5.4。
数字直接飞了:OSWorld-Verified 成功率 75.0%,超过 GPT-5.2 的 47.3%,也超过了人类的 72.4%。OpenAI 在博客里写道——"our first general-purpose model with native computer-use capabilities"(我们首个原生具备电脑使用能力的通用模型)。
▲ OpenAI 2026年3月发布 GPT-5.4,宣称首个原生具备电脑使用能力的通用模型,OSWorld 75.0%
从14.9%到75.0%,不到两年。
看起来问题已经解决了?
社区里确实有人这么想。Dwarkesh 推文下面,@TheRealAdamG 直接甩出 OpenAI 的链接:
"@dwarkesh_sp - you da man, but your take on computer (and browser) use is dated. There have been massive gains in models..."
「你很棒,但你对电脑使用的看法已经过时了。模型和用户实现方面都有了巨大进步。」
▲ @TheRealAdamG 直接引用 GPT-5.4 数据,称 Dwarkesh 观点过时
但 Dwarkesh 要说的根本不在这里。
Dwarkesh 在他的博客长文《The next big breakthrough will be AIs learning on the job》里把论点展开了。
他的核心主张极其精炼:光靠可验证(verifiable)远远不够,还得能大规模研磨(grindable)。
什么叫 grindable?
就是你能针对一个确定性的、可重放的模拟器,同时跑成千上万个并行试验(rollout),快速迭代,精确定位哪个动作有效,哪个动作无效。
拿写代码来说,这简直是天堂般的训练环境。你可以复制一千个完全相同的 Docker 容器,让一千个 AI 同时去修同一个 bug。编译器通过了就对了,测试挂了就错了。失败了?销毁容器重来,成本几乎为零。
整个过程在数据中心内部闭环,不需要碰真实世界的一根毫毛。
但操作电脑呢?
▲ Dwarkesh 博客"The next big breakthrough will be AIs learning on the job",阐述 grindability 概念
Dwarkesh 列出了一堆你在数据中心里无法复制的东西:
Amazon 的购物车状态——每个用户不同,每次刷新可能变,还受库存、定价、推荐算法影响。
Gmail 的未读邮件——你的收件箱和我的收件箱完全不一样,时刻在变。
任何需要登录的网站——cookie、session、双因素认证、设备指纹,全部跟真实身份绑定。
反爬机制——你派一千个 agent 去操作同一个网站,风控系统分分钟把你全部拉黑。
UI 的持续变化——A/B 测试、布局改版、cookie 横幅、地区差异,今天截图训练的模型明天可能就认不出同一个按钮了。
更致命的是不可重放性。你在 Amazon 上完成了一次结账,状态就永远变了。想"回放"?你得重建整个外部世界——用户状态、库存、价格、推荐系统,全部得从头来。
用 Dwarkesh 原话说:
"You can't have a thousand agents go try the sameeland checkout flow on Amazon. Because Andy Jassy will find and detect your bots and shut your ass down."
「你不可能让一千个 agent 同时去走 Amazon 的结账流程。因为 Andy Jassy 会发现你的 bot,然后把你踢出去。」
这段话粗暴、直接,但说透了问题的本质。
Dwarkesh 没有停在"操作电脑"这个层面。他把问题推到了极限:
"How would we train an AI to build a business? How would you make an AI that's really good at winning court cases? Or having a profitable day trading in the markets? Or helping a candidate win an election?"
「我们怎么训练 AI 去创业?怎么让 AI 擅长打赢官司?在市场上盈利做交易?帮候选人赢得选举?」
然后他追问:
"What is the RL environment to make an AI as good at politics as Lyndon Johnson, or as good at building a space launch business as Elon Musk?"
「什么样的 RL 训练环境,能让 AI 在政治上像 Lyndon Johnson 那样厉害,或者在太空发射业务上像 Elon Musk 那样强?」
答案是——目前没有这种环境。
这些领域的 rollout 需要跟真实世界深度互动,反馈周期以月甚至年为单位,你没办法在数据中心里"扰动模型动作数千次"来找出到底哪一步起了作用。
这就揭开了当前 AI 训练范式一个深刻的结构性限制。
实验室们最核心的假设是什么?用 Dwarkesh 博客的原文——如果让 AI 在数千个多样的 RL 环境中完成数百万个可验证任务,就基本上造出了 AGI。
乐观者相信,数据效率低、缺乏持续学习这些"根本缺陷",可以被暴力规模碾压——就像 NLP 领域当年被 GPT-3 的规模碾过去一样。
但 Dwarkesh 指出了一个刺眼的数字:模型在训练阶段的样本效率比人类低大约百万倍。Inference 时看起来聪明,可训练时的低效是硬约束。对于 grindable 的任务,你可以靠海量并行来弥补;对于不可 grind 的任务,你就需要极高的样本效率——而这恰恰是目前没有的。
Dwarkesh 这条推文下面,两派人吵得很凶。
一派认为问题在模型本身。@ar0cket1 说得很干脆:
"llms aren't built to do computer use natively nearly as well as code writing, I don't think the amazon thing is really a big bottleneck but just an LLM skill issue."
「LLM 在原生电脑使用方面的构建,并不像写代码那样好。我不认为 Amazon 那类问题是真正的大瓶颈,只是 LLM 的技能问题。」
另一派则坚定站在 Dwarkesh 这边。他们指出:基准测试上的数字好看,并不等于真实世界可靠。模型在干净的 benchmark 环境里拿75%,到了真正开放、混乱、不可重放的现实场景里,一个 edge case 就可能翻车。
Reddit 上 r/singularity 社区对 Dwarkesh 的观点也有长线讨论。有人总结了他的几个核心论点:持续学习(continual learning)的缺失是最大瓶颈;LLM 就像一个只靠看说明书学萨克斯的孩子,没有练习、反馈、调整的过程。
还有人注意到 Dwarkesh 自己的亲身经历——他花了超过100小时试图用 LLM 工具做播客后期,结果给这些工具在"本应是它们核心优势"的任务上只打了"5 out of 10"。
这些声音加在一起,勾勒出一幅复杂的图景:benchmark 上的进步是真实的,但 Dwarkesh 关心的问题维度,benchmark 本身就测不到。
那怎么办?
一家叫 Mechanize 的研究公司提出了一个很有想象力的思路:replication training(复制训练)。
核心思想是——让 AI 精确复制已有的人类软件。CLI 工具、网站、游戏、复杂应用,统统作为 RL 训练任务。
▲ Mechanize 提出"RL 的 GPT-3 时刻"概念——通过大规模复制现有软件来制造海量可研磨的训练环境
Mechanize 把当前 RL 的状态类比为"pre-GPT-3 时代"——在少数几个狭窄环境里精细调优,结果就是能力脆弱、泛化极差。他们主张把 RL 训练规模推到跟预训练相当,估算下来大概需要~10,000 人类任务年的模型体验量。这个数字跟开发 Windows Server 2008 或 GTA V 的人力投入在同一个量级。
这相当于在回答 Dwarkesh 的问题:既然真实世界不可 grind,那就制造更多可 grind 的环境——用已有的人类软件作为原料。
除此之外,学界和业界还在探索其他几条路:
世界模型 + Dreaming——在 AI 自己学到的世界模型里做大量虚拟 rollout,只用少量真实数据校正偏差。有点像人在睡觉时"复盘"白天经历、巩固记忆。
混合操作范式——代码优先(用 bash/Playwright 等程序化方式操作电脑),只在必要时才退回到像素级的鼠标点击。GPT-5.4 已经支持 screenshot + Playwright 双模式。
反转设计思路——别再逼 AI 去逆向工程人类的 GUI 了,让软件本身对 agent 更友好才对:提供结构化 API、显式的操作接口、生成式 UI。
每一条路都有各自的硬障碍。但它们共同指向一个方向:纯粹依赖"让模型更聪明"可能走不通,环境和接口本身也需要进化。
让我们回到 Dwarkesh 那个问题的真正射程。
他表面上在问"为什么操作电脑进展慢"。实际上他在追问一个更大的东西:如果对人类最重要的能力——创业、谈判、决策、领导——本质上都很难被研磨,那么当前"用可验证任务暴力规模化"的路线,到底能把我们带到哪里?
AI 进步最快的领域,恰恰是那些最不像真实人类工作的领域:纯文本生成、纯代码编写、封闭数学竞赛。
而操作电脑的滞后——以及更广义的"真实世界长期代理"的滞后——暴露的是整个训练范式对并行、可重放、确定性模拟环境的深度依赖。
从14.9%到75.0%,绝对进步确实惊人。但 Dwarkesh 的问题,并没有停在"75%还不够高"。
他要说的是:你在一个干净的、被精心设计过的 benchmark 里拿再高的分数,也无法证明你能在混乱的、不可逆的、充满意外的真实世界里稳定运转。
可验证只是门票。可研磨才决定你能走多远。
而那些最值得 AI 去做的事情,偏偏是最难被研磨的。
这个悖论,可能会定义接下来几年 AI 发展的真正战场。