AI-Eyes插件:赋予AI视觉能力,真正读懂屏幕内容
AI-Eyes屏幕视觉插件(2.0版本),其核心在于一个名为VisionLocator的视觉金字塔定位器Python工具。
其设计理念十分直观:模仿人类观察事物的方法——先浏览整体,再聚焦感兴趣的细节,层层放大,直至实现精准定位。
该插件体积仅38KB,且无多余依赖。相较于传统RPA工具动辄几十MB的庞大身躯,这简直是绣花针与大铁锤的悬殊对比。
此技能已发布于SkillHub(专为国内用户优化的AI技能社区),并顺利通过科恩实验室与云鼎实验室的双重安全检测,当前版本为V2.0.0,下载量达166。
人类在搜寻物品时,绝不会一开始就死盯着细节。
当你进入陌生房间寻找空调遥控器时——会先环顾全屋(L0),锁定沙发周边(L1),聚焦茶几范围(L2),最终确认遥控器位于杯垫旁(L3)。
VisionLocator所做的正是此事,且其精度惊人,达到了0.125px。
最多支持9层递归,如同使用放大镜寻找蚂蚁一般,逐层逼近目标对象。
具体的技术流程如下所示:
仅有精度尚显不足,实际应用中的UI元素形态各异。为此,AI-Eyes提供了四种匹配模式:
exact(精确匹配) 区分大小写,必须完全一致。"Submit"只能是"Submit",多出一个空格都不允许。适用于对精度要求极高的场景。
fuzzy(模糊匹配) 允许存在部分字符差异。即便UI多了一个空格或少了一个标点,它依然能够识别。容错率较高,在实际操作中非常实用。
semantic(语义匹配) 这是最具AI特色的模式——"提交"等同于"确认"或"OK",它理解语义,而不仅仅是对比字符。你的脚本将不再受限于固定的文案文本。
position(位置加权) 优先返回屏幕特定区域的匹配结果。人类操作界面时本就存在视觉习惯(例如确认按钮常位于右下角),该模式将此类习惯融入了算法之中。
除上述内容外,它还具备几个值得称道的设计亮点:
LLaVA 语义验证——在找到候选元素后,利用视觉语言模型(VLM)进行二次确认,追求的不仅是"看起来像",更是"理解上的正确"。
坐标变换器——在递归放大过程中,坐标会随之缩放,它能自动补偿放大倍率,确保返回的是真实屏幕坐标,而非某层放大后的局部坐标。
多显示器自动适配——使用多屏的用户无需担忧,它会妥善处理不同显示器间的坐标映射关系。
依赖极简——仅需Pillow(截图处理)、rapidocr-onnxruntime或easyocr(OCR)以及pyautogui(截图),可选接入Ollama与LLaVA进行语义验证。不存在各种莫名其妙的依赖冲突。
这个工具能做什么?其应用范围比你想象的要广:
🤖 AI Agent 屏幕操作 这是最直接的应用场景。让文字AI能够"看见"屏幕,找到按钮并点击,实现真正的端到端自动化。无需你再手动截图并描述"按钮在哪里"。
🧪 自动化测试 传统UI自动化测试依赖控件ID或XPath,一旦UI改版便会失效。基于视觉的定位方式不关注底层实现,界面呈现何种样式便匹配何种样式,鲁棒性显著增强。
🖥️ RPA 流程自动化 传统RPA工具昂贵、笨重且复杂。AI-Eyes仅38KB的核心,配合几行Python代码,即可实现大部分桌面自动化功能。
🌐 多语言界面适配 semantic模式使得同一套脚本能够适配中英文等不同的UI。你的自动化流程不会因为更换语言包而停止工作。
♿ 无障碍辅助 视障用户可通过语音结合视觉定位来操作界面,AI-Eyes可作为底层能力支撑此类应用。
📊 屏幕数据采集 定位并提取屏幕特定区域的数据,比全屏OCR要精准得多。
安装依赖项:
核心代码仅需寥寥数行:
请搜索SkillHub(skillhub.cn),这是腾讯推出的专为国内用户优化的AI Skills社区,解决了官方ClawHub在国内访问缓慢、下载速度迟滞的问题。
在SkillHub中搜索"AI-Eyes"或作者"独孤剑虎",即可找到该技能,通过国内镜像加速下载,安装后即可使用。
关于AI的"眼睛"这一话题,其实才刚刚拉开序幕。
当文字AI具备了视觉、听觉及界面操作能力,它与人类助手之间的界限将愈发模糊。AI-Eyes这类工具的价值,不仅在于解决技术难题,更在于重新定义"AI能为你做什么"的边界。
你希望AI还能"看见"什么?欢迎在评论区留言讨论。
往期精彩回顾:
我把女朋友"蒸馏"成了一个AI
国内 OpenClaw 产品全景对比
国内大模型申请API Key攻略合集
不会装 Skill?你只用了 WorkBuddy 的一半
Hermes还没学明白,Generic Agent又来了
腾讯推荐的 Skill 你装了几个?这 10 个值得收藏
一只龙虾变多只:用飞书打造腾讯系多Agent协作
让AI秒变专属助手:我用Skill把重复工作全部自动化了
元宝派 + WorkBuddy = 随时随地远程办公,内附邀请码!
手机就是你的AI办公室!WorkBuddy微信小程序保姆级教程
Windows本地部署Hermes Agent,微信扫码即用(附完整教程)
【省到笑】WorkBuddy积分与Token换算内幕曝光!1积分≈3万Token,真相让人意外