AI操作电脑的困境:是技术瓶颈还是方向错了?
你在电脑前处理文档,AI在后台默默地为你填写表格。你无需将鼠标控制权交给它,也不必全程紧盯屏幕观察它的动作,甚至可以不关心它此刻正在进行何种操作。
这样的设想听起来确实十分理想化,然而,时至今日,这一目标仍未能完全实现。
我曾一度认为,这仅仅是技术层面的挑战,是AI模型尚不够智能,对屏幕内容的识别能力有待提升,认为再迭代几代模型便能迎刃而解。但最近接触到一个GitHub项目后,我的看法发生了转变。也许问题并非出在AI的“聪明”与否,而是我们从一开始就选择了错误的方向。
目前市面上所有主流的“AI操作电脑”解决方案,无论是Anthropic的Computer Use还是OpenAI的Operator,其工作逻辑都大同小异:截取屏幕画面,识别屏幕内容,然后模拟鼠标点击和键盘输入。当AI需要操作某个应用程序时,它必须将该窗口置于最前台,移动鼠标指针,然后逐一执行点击动作。
你在使用鼠标时,AI无法介入。AI在进行操作时,你也必须暂时让开。
这与其说是“助理”,不如说是“轮班工作”。
我仔细思考后认为,整个设计方案的底层逻辑是将AI视为“坐在电脑前的另一个人”。它以屏幕截图作为“眼睛”,以模拟的鼠标点击和键盘输入作为“手指”。一旦这个隐喻被确立,后续的一切都似乎被固定住了:鼠标只有一个,焦点窗口只有一个,同一时间只能有一个“人”进行操作。
换个角度思考,这个问题就变得清晰多了。你手机上的Siri帮你设置闹钟时,它是否接管了你的屏幕?并没有。它直接调用了系统接口,闹钟便已设置完成,你甚至没有感知到一个“操作过程”。Siri无需先打开时钟应用,然后移动光标,接着点击“加号”按钮,再逐个数字输入。它直接跳过了所有这些繁琐的步骤。
仔细体会这两种定位方式的区别。“另一个人机用户”意味着AI需要与你争夺同一套设备,这与你让同事帮忙时需要对方暂时腾出座位是同一逻辑。而“系统的一部分”则意味着AI与你的输入法、后台同步服务处于同一层级,它无需占据你的操作位置就能完成工作。
这两种不同的定位,直接决定了人类与AI能否实现同步协作。
GitHub上有一个名为Cua的项目,获得了将近一万五千个Star,它正是沿着第二条路径前进的。
▲ 左图:现有方案中AI占用屏幕,用户必须回避;右图:Cua在后台操作,双方互不干扰
Cua的后台驱动程序能够直接从系统底层操控应用程序。应用程序窗口无需被置于前台,鼠标指针也无需移动。你可以在前台正常打字写作,而它则在后台对另一个应用程序执行点击、输入、滚动等操作,双方互不影响。
该项目的作者在Hacker News上如此描述:当前用于自动化桌面应用程序的工具,在操作时必须接管用户的会话,鼠标光标会移动,键盘焦点会被抢占,应用程序窗口会跳到最前面。而Cua的后台驱动让AI代理(Agent)在后台完成这些操作,用户的鼠标光标、前台应用程序以及桌面空间均不受任何影响。
有一个细节令我颇感意外:许多Mac上的应用程序根本就没有预留自动化接口。例如,那些基于浏览器内核渲染的网页应用,其界面元素并不遵循系统的标准框架,这导致自动化工具根本“看不见”其中的按钮和输入框。Figma、Blender等画布型的设计工具也存在类似情况。以往遇到这些应用,自动化操作几乎无法进行,只能通过逐像素猜测来识别屏幕截图。然而,Cua甚至能够操作这些应用,作者在评论区特意提到了这一点,想必是经常被问及。
那么,为何此前没有人尝试走这条路呢?
我对此思考了许久,也未能完全理解。或许一个原因在于,Mac系统的底层接口确实难以驾驭,相关的开发文档素来以晦涩难懂著称。但我认为,还有一个更有趣的原因:现有的方案虽然笨拙,但毕竟是“能用”的。
而“能用”这一点,有时反而成为了最大的阻碍。大家都在既有的道路上摸索,屏幕截图精度不够就提高分辨率,点击不准确就增加重试机制,一层一层地打补丁。没有人愿意停下来思考,这条路本身是否就存在方向上的偏差。
“能用”,反而锁死了更多的可能性。
因此,Cua能够打通另一条道路,本身就已属不易。这并非意味着该项目完美无缺,但它至少证明了一点:“不抢占鼠标”是完全可以实现的。
▲ Cua的四大组成部分:后台驱动、沙盒环境、协作窗口、性能评测
让AI在后台操作你的真实应用程序,安全性无疑是人们最先考虑的问题。这也是许多人在看到这个项目后最先提出的疑问。
我的看法是这样的:你现在使用Claude Code编写代码、修改文件、执行命令,它实际上已经在操作你的真实系统了,只不过它操作的是终端和文件系统,而非图形界面。试想一下,它已经能够删除你的代码,修改你的配置,并在你的机器上执行命令。从这一步到“帮助你在界面上点击一个按钮”,其风险差距并没有想象中那么大。
真正值得关注的并非AI能否操作界面,而是它在未经用户确认的情况下执行了不可逆的操作。例如,发送了一封收件人错误的邮件,或者删除了一个不该删除的文件夹。这些行为与界面的表现形式无关,而与权限的设计有关。
Cua在这方面进行了几项设计:不放心的任务可以先在沙盒环境中运行,这相当于给AI提供了一台独立的虚拟电脑,即使搞坏了,删掉重建即可,不会影响你正在使用的系统。还有一个协作窗口,可以将AI的操作画面投射到你的桌面上,支持剪贴板共享、音频传输等功能,让你能够随时了解它的操作过程。当后台驱动与Claude Code配合时,在执行操作前,你可以看到AI打算做什么,并在确认后再执行。
坦白说,我认为这套设计比大多数人想象的“AI控制电脑等于失控”要靠谱得多。它完美吗?显然不是。但安全性从来都不是一蹴而就的,而是需要层层叠加和完善的。
说实话,Cua目前主要面向开发者。安装后台驱动需要运行安装脚本,使用沙盒需要安装容器工具,这对普通用户来说上手门槛不低。那一万五千个Star基本都是开发者贡献的,普通用户现在去安装,很大概率会在第一步就遇到困难。
但这件事的重点不在于你今天能否成功安装。
终于有人证明了,“AI在后台工作且不打扰人”在技术上是可行的。它不再仅仅是一个想法,而是一个已经跑通的解决方案。苹果、微软、Anthropic迟早都需要面对这个问题,Cua只是第一个趟出这条路的人。
作者提到,他们最早的内部用例是让Claude Code在后台操作一个应用程序进行演示录制。录制过程中,操作者本人正在使用同一台电脑处理其他事务。
你处理你的事情,它执行它的任务。
觉得有用?点个「在看」让更多人看到
想第一时间收到新文章?关注「普通人的AI进化论」
每天一篇,拆解普通人用得上的AI方法
— 长按识别下方名片,关注我 —