AI 浏览器自动化工具指南
agent-browser 赋予 AI 仿人操控浏览器的功能——支持点击、填表、截图及数据抓取。目前已有 44 万用户安装。
场景 1:无法获取最新资讯
你让 AI 去查询竞品的最新价格。它搜索了一番,只给你一个链接。你点开一看——404。因为那篇文章已是去年的旧闻。
AI 无法实时打开网页获取最新数据。它只能依赖搜索引擎的缓存,但这往往已过时。
场景 2:无法登录操作
你让 AI 从需要登录的后台导出数据。它回复:「抱歉,我无法访问受保护的页面。」
AI 无法登录、管理 Cookie 或处理单页应用。它只能「看」静态 HTML,无法真正「使用」网页。
场景 3:自动化测试常报错
你让 AI 执行自动化测试:打开页面 → 点击按钮 → 填写表单 → 提交 → 验证结果。
AI 编写了 Selenium 脚本,但常因元素定位失败而崩溃。一旦 CSS 选择器发生变化,整个脚本便失效。
agent-browser 火到什么程度?由 Vercel 官方开发,安装量达 441K,在 GitHub 获得 35.9K Star,每周稳定安装 2.4 万次。
它不依赖搜索引擎缓存或静态 HTML 解析——而是直接操控 Chrome 浏览器,像人类一样点击、填写、滚动和截图。此外,支持会话持久化,无需每次重新开始。
agent-browser 的四大核心功能:
① 15+ 命令类型— 包含导航、页面检查、交互、数据提取、Cookie 管理、JS 执行……涵盖浏览器自动化的所有场景。
② 会话持久化— 无需每次重启。保留登录状态、Cookie 和页面上下文。连续执行 100 条命令也不会丢失状态。
③ @eN 元素引用— 利用无障碍树(Accessibility Tree)生成页面快照,创建紧凑的 @e1、@e2 引用。不依赖脆弱的 CSS 选择器,而是基于语义进行定位。
④ Python 集成— 内置 Python 支持,允许直接设置变量、访问浏览器对象和运行脚本。与自动化工作流无缝连接。
agent-browser 支持三种浏览器模式:
• Headless Chromium:无界面运行,适合 CI/CD、后台自动化、批量数据抓取
• 真实 Chrome:连接你的本地浏览器,保留登录状态、扩展程序和 Cookie
• 云端浏览器:云端托管的远程浏览器,支持代理配置,适合跨区域访问
agent-browser 最适合以下 4 类场景:
🔍 竞品监控— 自动打开竞品网站,截图最新页面,提取价格/功能变化。定时执行,有变化时触发告警。
🧪 E2E 测试— 自动执行用户操作流程:打开页面 → 点击 → 填写 → 提交 → 验证结果。
📊 数据采集— 从需要登录的后台、SPA 页面和动态加载的网站提取数据。比传统爬虫更强大。
🤖 AI 代理工作流— 让 AI 代理自主搜索、填写表单和提交申请。结合 Cloudflare 隧道访问本地服务。
# 一键安装
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser
安装后说「帮我打开 xxx 网站截图」,AI 将自动控制浏览器完成任务。
# 一键安装
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser
安装后说「用 agent-browser 测试登录流程」,AI 将自动执行 E2E 测试。
# CLI 安装
hermes skills install agent-browser
# 或手动安装
git clone https://github.com/vercel-labs/agent-browser.git /tmp/ab
cp -r /tmp/ab/skills/agent-browser ~/.hermes/skills/
安装后说「帮我监控竞品网站的变化」,AI 将自动定时截图并对比。
1. 安装 agent-browser:npx skills add ... --skill agent-browser
2. 说「帮我打开 xxx 网站,截图并提取标题」
3. 观察是否自动控制浏览器完成任务
4. 试试需要登录的场景:「登录后台,导出数据」
5. 探索高级功能:云端浏览器、Cloudflare 隧道、并行子代理