page-agent 是什么?

Page Agent(阿里巴巴出品)是一个「住在网页里」的 JavaScript GUI 智能体:用自然语言控制网页界面。它最大的特点是无需浏览器扩展、无需 Python、无需无头浏览器——只是一段页内 JavaScript,一切都在你的网页里发生。它走「文本化 DOM 操作」路线(不靠截图、不需要多模态 LLM 或特殊权限),自带模型解耦(bring your own LLM),并可选搭配 Chrome 扩展做多页任务、以及一个 Beta 的 MCP 服务器从外部控制。TypeScript、MIT 开源、约 1.8 万星,npm 包 page-agent,定位是「客户端网页增强」而非服务端自动化,构建在 browser-use 之上。

⭐ 16,729 Stars 🍴 1,356 Forks TypeScript MIT 作者: alibaba
来源:README 顶部简介/Features/Acknowledgments、GitHub meta(alibaba/page-agent,TypeScript,MIT,homepage alibaba.github.io/page-agent) 查看 GitHub 仓库 →

为什么值得关注

让 AI 用自然语言操作网页通常要么靠浏览器扩展+无头浏览器(重、要权限),要么靠多模态模型读截图(贵)。Page Agent 给了一个轻巧的反向思路:把 agent 做成页内 JS,用文本化 DOM 操作完成点击/填表等动作,几行代码就能给自家产品加一个 AI copilot,不用改后端、不装扩展、不用多模态。出自阿里、MIT 开源、有 HN 讨论与在线 demo,定位实用,因此快速涨到约 1.8 万星。

来源:README Features/Use Cases/Quick Start、GitHub meta(stars 18043、created_at 2025-09-23、pushed_at 2026-05-11)

核心功能

页内 JS、零额外环境

无需浏览器扩展、Python 或无头浏览器,仅一段页内 JavaScript 即可运行,agent 直接在你的网页里操作界面,集成成本极低。

来源:README Features「Easy integration」
文本化 DOM 操作(不靠截图)

通过文本化的 DOM 操作完成交互,不需要截图、不需要多模态 LLM 或特殊权限,比视觉方案更轻、更省。

来源:README Features「Text-based DOM manipulation」
模型解耦(BYO LLM)

自带模型可换:可配置任意 OpenAI 兼容端点与模型(如阿里 DashScope 的 qwen3.5-plus),也有免费测试 LLM 供技术评估,按需接入自己的 LLM。

来源:README Features「Bring your own LLMs」/Quick Start(NPM 用法)
可选 Chrome 扩展与 MCP 服务器

可选 Chrome 扩展支持跨标签页的多页任务;并提供 Beta 的 MCP 服务器,让外部 agent 客户端从外面控制页内 agent / 浏览器。

来源:README Features(chrome extension/MCP Server Beta)/Use Cases

技术架构

Page Agent 是 TypeScript 实现、以 npm 包 page-agent 分发的客户端库(仓库为 packages/ 的 monorepo)。核心是一段在页面内运行的 agent:接收自然语言指令,读取并文本化当前 DOM,调用用户配置的 LLM 规划动作,再在页内执行点击、输入等 DOM 操作(其 DOM 处理与提示词派生自 browser-use)。它不依赖扩展/无头浏览器/截图,运行完全在浏览器页内。集成方式有二:一行 ``(用其免费测试 LLM,仅供技术评估;加 ?autoInit=false 可不自动创建、改用 new window.PageAgent(...))。生产用 npm:`npm install page-agent`,然后 `const agent = new PageAgent({ model:'qwen3.5-plus', baseURL:'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey:'YOUR_API_KEY', language:'en-US' })`,再 `await agent.execute('Click the login button')`。多页任务装可选 Chrome 扩展,外部控制用 MCP 服务器(Beta)。更多用法见官方文档。

来源:README Quick Start(One-line integration/NPM Installation)

使用场景

适合想给自家 Web 产品快速加「自然语言操作」能力的团队:几行代码给 SaaS 加一个 AI copilot(不用重写后端)、把 ERP/CRM/后台里 20 步的表单填写变成一句话、用自然语言/语音让任意 Web 应用更可访问(accessibility)、用 Chrome 扩展把自家 web agent 扩展到多标签页、或经 MCP 让 agent 客户端控制浏览器。它定位客户端增强而非服务端爬虫/自动化,适合「在用户浏览器里帮用户操作界面」的场景。

来源:README Use Cases 段

优势与局限

优势

  • 集成极轻:纯页内 JS,无需扩展/Python/无头浏览器,一行 script 或 npm 即可,几行代码加 AI copilot。
  • 文本化 DOM、不靠截图:不需要多模态模型或特殊权限,成本与延迟更低。
  • 模型解耦、可扩展:BYO LLM(OpenAI 兼容),可选 Chrome 扩展做多页、MCP 供外部控制。
  • 出自阿里、MIT 开源、约 1.8 万星,基于成熟的 browser-use,定位清晰。

局限

  • 定位客户端网页增强、非服务端自动化,需要在浏览器页内运行,不适合后台批量爬取/自动化场景。
  • 文本化 DOM 对高度自定义/canvas/复杂富交互页面的理解可能有限,效果随页面结构与所选 LLM 而异。
  • demo CDN 用免费测试 LLM 仅供评估,生产需自带 API key 并承担调用成本;让 agent 操作页面涉及用户授权与安全。
  • MCP 仍是 Beta,多页扩展需额外安装 Chrome 扩展。
来源:README Features/Quick Start(demo 声明)/Acknowledgments(client-side 定位)

最新版本

项目以 npm 包 page-agent 持续发布(README 示例为 1.8.2),提供 CDN IIFE 与 npm 两种集成。功能已覆盖页内文本化 DOM 操作、BYO LLM、可选 Chrome 扩展(多页)与 MCP 服务器(Beta)。MIT 开源,有在线 demo 与文档。仓库最近一次更新在 2026-05-11。

来源:README Quick Start(版本 1.8.2)/Features、GitHub meta pushed_at 2026-05-11、created_at 2025-09-23

总结评价

Page Agent 给「用自然语言操作网页」提供了一个少见地轻量的方案:把 GUI agent 做成页内 JavaScript,用文本化 DOM 操作而非截图,无需扩展、无头浏览器或多模态模型,几行代码就能给自家产品加一个能点按、填表的 AI copilot,还能 BYO LLM、可选多页扩展与 MCP。对想在用户浏览器里增强交互、做表单自动化或可访问性的前端团队,它非常对路,出自阿里、MIT、近 2 万星也很有分量。要清楚它定位客户端增强而非服务端自动化、文本化 DOM 对复杂页面有局限、生产需自带模型与授权、MCP 尚 Beta。作为「住在网页里的 GUI agent」,它的集成成本与定位都相当聪明。

来源:综合 README、Features、Use Cases 与 GitHub meta 的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 19:49. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件