AI操作电脑的困境：是技术瓶颈还是方向错了？

发布时间：2026-04-29 22:07阅读：11

你在电脑前处理文档，AI在后台默默地为你填写表格。你无需将鼠标控制权交给它，也不必全程紧盯屏幕观察它的动作，甚至可以不关心它此刻正在进行何种操作。

这样的设想听起来确实十分理想化，然而，时至今日，这一目标仍未能完全实现。

我曾一度认为，这仅仅是技术层面的挑战，是AI模型尚不够智能，对屏幕内容的识别能力有待提升，认为再迭代几代模型便能迎刃而解。但最近接触到一个GitHub项目后，我的看法发生了转变。也许问题并非出在AI的“聪明”与否，而是我们从一开始就选择了错误的方向。

目前市面上所有主流的“AI操作电脑”解决方案，无论是Anthropic的Computer Use还是OpenAI的Operator，其工作逻辑都大同小异：截取屏幕画面，识别屏幕内容，然后模拟鼠标点击和键盘输入。当AI需要操作某个应用程序时，它必须将该窗口置于最前台，移动鼠标指针，然后逐一执行点击动作。

你在使用鼠标时，AI无法介入。AI在进行操作时，你也必须暂时让开。

这与其说是“助理”，不如说是“轮班工作”。

我仔细思考后认为，整个设计方案的底层逻辑是将AI视为“坐在电脑前的另一个人”。它以屏幕截图作为“眼睛”，以模拟的鼠标点击和键盘输入作为“手指”。一旦这个隐喻被确立，后续的一切都似乎被固定住了：鼠标只有一个，焦点窗口只有一个，同一时间只能有一个“人”进行操作。

换个角度思考，这个问题就变得清晰多了。你手机上的Siri帮你设置闹钟时，它是否接管了你的屏幕？并没有。它直接调用了系统接口，闹钟便已设置完成，你甚至没有感知到一个“操作过程”。Siri无需先打开时钟应用，然后移动光标，接着点击“加号”按钮，再逐个数字输入。它直接跳过了所有这些繁琐的步骤。

仔细体会这两种定位方式的区别。“另一个人机用户”意味着AI需要与你争夺同一套设备，这与你让同事帮忙时需要对方暂时腾出座位是同一逻辑。而“系统的一部分”则意味着AI与你的输入法、后台同步服务处于同一层级，它无需占据你的操作位置就能完成工作。

这两种不同的定位，直接决定了人类与AI能否实现同步协作。

GitHub上有一个名为Cua的项目，获得了将近一万五千个Star，它正是沿着第二条路径前进的。

▲ 左图：现有方案中AI占用屏幕，用户必须回避；右图：Cua在后台操作，双方互不干扰

Cua的后台驱动程序能够直接从系统底层操控应用程序。应用程序窗口无需被置于前台，鼠标指针也无需移动。你可以在前台正常打字写作，而它则在后台对另一个应用程序执行点击、输入、滚动等操作，双方互不影响。

该项目的作者在Hacker News上如此描述：当前用于自动化桌面应用程序的工具，在操作时必须接管用户的会话，鼠标光标会移动，键盘焦点会被抢占，应用程序窗口会跳到最前面。而Cua的后台驱动让AI代理（Agent）在后台完成这些操作，用户的鼠标光标、前台应用程序以及桌面空间均不受任何影响。

有一个细节令我颇感意外：许多Mac上的应用程序根本就没有预留自动化接口。例如，那些基于浏览器内核渲染的网页应用，其界面元素并不遵循系统的标准框架，这导致自动化工具根本“看不见”其中的按钮和输入框。Figma、Blender等画布型的设计工具也存在类似情况。以往遇到这些应用，自动化操作几乎无法进行，只能通过逐像素猜测来识别屏幕截图。然而，Cua甚至能够操作这些应用，作者在评论区特意提到了这一点，想必是经常被问及。

那么，为何此前没有人尝试走这条路呢？

我对此思考了许久，也未能完全理解。或许一个原因在于，Mac系统的底层接口确实难以驾驭，相关的开发文档素来以晦涩难懂著称。但我认为，还有一个更有趣的原因：现有的方案虽然笨拙，但毕竟是“能用”的。

而“能用”这一点，有时反而成为了最大的阻碍。大家都在既有的道路上摸索，屏幕截图精度不够就提高分辨率，点击不准确就增加重试机制，一层一层地打补丁。没有人愿意停下来思考，这条路本身是否就存在方向上的偏差。

“能用”，反而锁死了更多的可能性。

因此，Cua能够打通另一条道路，本身就已属不易。这并非意味着该项目完美无缺，但它至少证明了一点：“不抢占鼠标”是完全可以实现的。

▲ Cua的四大组成部分：后台驱动、沙盒环境、协作窗口、性能评测

让AI在后台操作你的真实应用程序，安全性无疑是人们最先考虑的问题。这也是许多人在看到这个项目后最先提出的疑问。

我的看法是这样的：你现在使用Claude Code编写代码、修改文件、执行命令，它实际上已经在操作你的真实系统了，只不过它操作的是终端和文件系统，而非图形界面。试想一下，它已经能够删除你的代码，修改你的配置，并在你的机器上执行命令。从这一步到“帮助你在界面上点击一个按钮”，其风险差距并没有想象中那么大。

真正值得关注的并非AI能否操作界面，而是它在未经用户确认的情况下执行了不可逆的操作。例如，发送了一封收件人错误的邮件，或者删除了一个不该删除的文件夹。这些行为与界面的表现形式无关，而与权限的设计有关。

Cua在这方面进行了几项设计：不放心的任务可以先在沙盒环境中运行，这相当于给AI提供了一台独立的虚拟电脑，即使搞坏了，删掉重建即可，不会影响你正在使用的系统。还有一个协作窗口，可以将AI的操作画面投射到你的桌面上，支持剪贴板共享、音频传输等功能，让你能够随时了解它的操作过程。当后台驱动与Claude Code配合时，在执行操作前，你可以看到AI打算做什么，并在确认后再执行。

坦白说，我认为这套设计比大多数人想象的“AI控制电脑等于失控”要靠谱得多。它完美吗？显然不是。但安全性从来都不是一蹴而就的，而是需要层层叠加和完善的。

说实话，Cua目前主要面向开发者。安装后台驱动需要运行安装脚本，使用沙盒需要安装容器工具，这对普通用户来说上手门槛不低。那一万五千个Star基本都是开发者贡献的，普通用户现在去安装，很大概率会在第一步就遇到困难。

但这件事的重点不在于你今天能否成功安装。

终于有人证明了，“AI在后台工作且不打扰人”在技术上是可行的。它不再仅仅是一个想法，而是一个已经跑通的解决方案。苹果、微软、Anthropic迟早都需要面对这个问题，Cua只是第一个趟出这条路的人。

作者提到，他们最早的内部用例是让Claude Code在后台操作一个应用程序进行演示录制。录制过程中，操作者本人正在使用同一台电脑处理其他事务。

你处理你的事情，它执行它的任务。

觉得有用？点个「在看」让更多人看到

想第一时间收到新文章？关注「普通人的AI进化论」

每天一篇，拆解普通人用得上的AI方法

— 长按识别下方名片，关注我 —

← 上一篇：OpenAI内部矛盾引发AI泡沫担忧，科技巨头财报将揭示AI变现能力下一篇：人工智能训练师报考指南，抢占AI红利 →