标签

AI 浏览器自动化工具指南

发布时间:2026-06-14 09:03阅读:1

agent-browser 赋予 AI 仿人操控浏览器的功能——支持点击、填表、截图及数据抓取。目前已有 44 万用户安装。

场景 1:无法获取最新资讯

你让 AI 去查询竞品的最新价格。它搜索了一番,只给你一个链接。你点开一看——404。因为那篇文章已是去年的旧闻。

AI 无法实时打开网页获取最新数据。它只能依赖搜索引擎的缓存,但这往往已过时。

场景 2:无法登录操作

你让 AI 从需要登录的后台导出数据。它回复:「抱歉,我无法访问受保护的页面。」

AI 无法登录、管理 Cookie 或处理单页应用。它只能「看」静态 HTML,无法真正「使用」网页。

场景 3:自动化测试常报错

你让 AI 执行自动化测试:打开页面 → 点击按钮 → 填写表单 → 提交 → 验证结果。

AI 编写了 Selenium 脚本,但常因元素定位失败而崩溃。一旦 CSS 选择器发生变化,整个脚本便失效。

agent-browser 火到什么程度?由 Vercel 官方开发,安装量达 441K,在 GitHub 获得 35.9K Star,每周稳定安装 2.4 万次。

它不依赖搜索引擎缓存或静态 HTML 解析——而是直接操控 Chrome 浏览器,像人类一样点击、填写、滚动和截图。此外,支持会话持久化,无需每次重新开始。

agent-browser 的四大核心功能:

① 15+ 命令类型— 包含导航、页面检查、交互、数据提取、Cookie 管理、JS 执行……涵盖浏览器自动化的所有场景。

② 会话持久化— 无需每次重启。保留登录状态、Cookie 和页面上下文。连续执行 100 条命令也不会丢失状态。

③ @eN 元素引用— 利用无障碍树(Accessibility Tree)生成页面快照,创建紧凑的 @e1、@e2 引用。不依赖脆弱的 CSS 选择器,而是基于语义进行定位。

④ Python 集成— 内置 Python 支持,允许直接设置变量、访问浏览器对象和运行脚本。与自动化工作流无缝连接。

agent-browser 支持三种浏览器模式:

• Headless Chromium:无界面运行,适合 CI/CD、后台自动化、批量数据抓取

• 真实 Chrome:连接你的本地浏览器,保留登录状态、扩展程序和 Cookie

• 云端浏览器:云端托管的远程浏览器,支持代理配置,适合跨区域访问

agent-browser 最适合以下 4 类场景:

🔍 竞品监控— 自动打开竞品网站,截图最新页面,提取价格/功能变化。定时执行,有变化时触发告警。

🧪 E2E 测试— 自动执行用户操作流程:打开页面 → 点击 → 填写 → 提交 → 验证结果。

📊 数据采集— 从需要登录的后台、SPA 页面和动态加载的网站提取数据。比传统爬虫更强大。

🤖 AI 代理工作流— 让 AI 代理自主搜索、填写表单和提交申请。结合 Cloudflare 隧道访问本地服务。

# 一键安装

npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser

安装后说「帮我打开 xxx 网站截图」,AI 将自动控制浏览器完成任务。

# 一键安装

npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser

安装后说「用 agent-browser 测试登录流程」,AI 将自动执行 E2E 测试。

# CLI 安装

hermes skills install agent-browser

# 或手动安装

git clone https://github.com/vercel-labs/agent-browser.git /tmp/ab

cp -r /tmp/ab/skills/agent-browser ~/.hermes/skills/

安装后说「帮我监控竞品网站的变化」,AI 将自动定时截图并对比。

1. 安装 agent-browser:npx skills add ... --skill agent-browser

2. 说「帮我打开 xxx 网站,截图并提取标题」

3. 观察是否自动控制浏览器完成任务

4. 试试需要登录的场景:「登录后台,导出数据」

5. 探索高级功能:云端浏览器、Cloudflare 隧道、并行子代理