agent-browser 是什么?

agent-browser 是 Vercel Labs 出品的浏览器自动化 CLI,专为 AI 智能体设计——一个快速的原生 Rust 命令行工具。它让智能体用简单命令驱动真实浏览器:打开页面、获取无障碍树(accessibility tree)快照并拿到元素引用、按引用点击/填写/取文本、截图等。与传统基于 Playwright/Puppeteer 的方案不同,它的守护进程不需要 Playwright 或 Node.js,直接用 Chrome for Testing(Google 官方自动化通道)。许可为 Apache-2.0,约 34,111 stars,提供 npm/Homebrew/Cargo 等多种安装方式。

⭐ 33,948 Stars 🍴 2,118 Forks Rust 作者: vercel-labs
来源:README.md(标题、首段、Requirements、Quick Start);GitHub 仓库元数据(stars=34111、license=Apache-2.0、language=Rust) 查看 GitHub 仓库 →

为什么值得关注

让 AI 智能体可靠地操作浏览器是 Agent 落地的关键能力,但现有方案常依赖较重的 Node/Playwright 栈、且对 LLM 不够友好。agent-browser 的差异化在于:原生 Rust、快、守护进程零 Node 依赖,并以「无障碍树快照 + 元素引用(@e2 这类 ref)」的方式让智能体精准定位元素(也兼容传统选择器与按 role 查找),更契合 LLM 的工作方式。出自 Vercel Labs、定位清晰,因而获得高关注。截至数据采集约 34,111 stars。

来源:README.md(首段、Quick Start 的 snapshot/ref 用法、Requirements);GitHub 仓库元数据(owner=vercel-labs、stars=34111)

核心功能

无障碍树快照 + 元素引用

snapshot 获取页面无障碍树并给每个元素分配引用(如 @e2),智能体按引用 click/fill/get text,定位精准、对 LLM 友好。

来源:README.md(Quick Start 的 snapshot/@e2 用法)
原生 Rust、零 Node 守护进程

快速的原生 Rust CLI,守护进程不需要 Playwright 或 Node.js,用 Chrome for Testing 官方自动化通道驱动浏览器。

来源:README.md(首段、Requirements)
多种定位方式

除元素引用外,也支持传统 CSS 选择器(click "#submit")和按角色查找(find role button click --name "Submit"),兼顾灵活与可读。

来源:README.md(Quick Start、Traditional Selectors)
自检与多渠道安装

内置 doctor 自检/修复环境、Chrome、守护进程、网络与安全;安装支持 npm/Homebrew/Cargo/源码,upgrade 自动识别安装方式更新。

来源:README.md(Installation 各方式、Updating);git tree(cli/src/doctor/)

技术架构

它是一个原生 Rust CLI(cli/src 下含 commands、connection、native/actions、auth、doctor 等模块),通过 Chrome DevTools 类机制驱动浏览器;守护进程不需要 Playwright 或 Node.js。首次用 agent-browser install 从 Chrome for Testing 下载 Chrome(也会自动检测已有的 Chrome/Brave/Playwright/Puppeteer 安装)。核心交互范式是:open 打开页面→snapshot 获取带元素引用的无障碍树→用 @e2 这类 ref 做 click/fill/get text/screenshot;同时支持传统 CSS 选择器和按 role+name 查找(如 find role button click --name "Submit")。还内置 doctor 子命令做环境/Chrome/守护进程/网络/安全自检与修复。安装分发覆盖 npm、Homebrew、Cargo 与源码构建,并有 upgrade 自动识别安装方式更新。

来源:README.md(Quick Start、Traditional Selectors、Requirements、Updating);git tree(cli/src/commands.rs、native/actions.rs、doctor/ 各模块)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) Chrome for Testing(Google 官方自动化通道)Chrome for Tes… 可复用已有 Chrome/Brave/Playwright/Puppeteer 安装可复用已有 Chro… 无障碍树快照 + 元素引用 原生 Rust、零 Node 守护进程原生 Rust、零 Node… 多种定位方式 自检与多渠道安装 agent-browser 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Rust(CLI 与守护进程)框架原生浏览器自动化 CLI(基于 Chrome DevTools 类机制)
Chrome for Testing(Google 官方自动化通道)可复用已有 Chrome/Brave/Playwright/Puppet…
多渠道分发(npm/Homebrew/Cargo/源码);源码构建需 Node.js 24+、pnpm 11+、Rust
来源:README.md(首段、Requirements、Installation、From Source);git tree(cli/src/ Rust)

快速上手

推荐全局安装:npm install -g agent-browser,然后 agent-browser install 首次从 Chrome for Testing 下载 Chrome;也可用 brew install agent-browser 或 cargo install agent-browser。Linux 需 agent-browser install --with-deps 装系统依赖。基本用法:agent-browser open example.com 打开页面→snapshot 取带引用的无障碍树→click @e2 / fill @e3 "..." / get text @e1 / screenshot page.png / close;也可用 CSS 选择器或 find role 方式。源码构建需 Node.js 24+、pnpm 11+、Rust。
来源:README.md(Installation、Quick Start、Linux Dependencies)

使用场景

适合给 AI 智能体加上「操作浏览器」的能力:自动化网页任务(登录、填表、点击、抓取文本/截图)、做端到端测试、构建需要真实浏览器的 Agent 工作流,或在 CI/脚本里驱动浏览器。它的无障碍树 + 元素引用范式特别适合让 LLM 可靠地定位和操作页面元素;原生 Rust 与零 Node 守护进程也降低了部署负担。自动化网页时应遵守目标站的服务条款与 robots/反爬规定,并对登录凭证等敏感信息做好保护。

来源:README.md(首段、Quick Start、Requirements)

优势与局限

优势

  • 原生 Rust、快,守护进程零 Node/Playwright 依赖,部署轻
  • 无障碍树快照 + 元素引用范式对 LLM 友好,定位精准
  • 兼容传统选择器与按 role 查找,灵活;用 Chrome for Testing 官方通道
  • 出自 Vercel Labs,多渠道安装、内置 doctor 自检、Apache-2.0 开源

局限

  • 需要下载/检测 Chrome,首次安装有额外步骤(Linux 还需系统依赖)
  • 浏览器自动化对复杂动态站点仍可能脆弱,需结合实际页面调试
  • 自动化他人网站需遵守其服务条款与反爬规定,存在合规边界
  • 作为底层 CLI,构建完整 Agent 工作流仍需自行编排
来源:README.md(Requirements、Installation、Quick Start);合规判断

最新版本

本页未列出具体版本号;项目以原生 Rust CLI 形式维护,通过 npm/Homebrew/Cargo 多渠道发布,提供 agent-browser upgrade 自动识别安装方式更新。更新以完善浏览器自动化命令、元素定位、doctor 自检与跨平台支持为主。

来源:README.md(Updating、Installation);git tree(cli/src/)

总结评价

agent-browser 把「给 AI 智能体一双操作浏览器的手」做得很对路:原生 Rust、快、守护进程零 Node 依赖,并用无障碍树快照 + 元素引用让 LLM 能精准定位和操作页面,兼容传统选择器,出自 Vercel Labs、安装与自检都齐全。对要给 Agent 加浏览器自动化能力、或做端到端测试的开发者,它是轻量而现代的选择。要注意首次需下载 Chrome、复杂动态站点仍需调试,以及自动化他人站点的合规边界。作为面向 Agent 的浏览器自动化底座,它定位清晰、工程质量高。

来源:综合 README.md 的定位、交互范式与工程特性
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 12:53. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件