page-agent 深度解析：架构、场景与部署指南（26K★）

为什么值得关注

让 AI 用自然语言操作网页通常要么靠浏览器扩展+无头浏览器（重、要权限），要么靠多模态模型读截图（贵）。Page Agent 给了一个轻巧的反向思路：把 agent 做成页内 JS，用文本化 DOM 操作完成点击/填表等动作，几行代码就能给自家产品加一个 AI copilot，不用改后端、不装扩展、不用多模态。出自阿里、MIT 开源、有 HN 讨论与在线 demo，定位实用，因此快速涨到约 1.8 万星。

来源：README Features/Use Cases/Quick Start、GitHub meta（stars 18043、created_at 2025-09-23、pushed_at 2026-05-11）

核心功能

页内 JS、零额外环境

无需浏览器扩展、Python 或无头浏览器，仅一段页内 JavaScript 即可运行，agent 直接在你的网页里操作界面，集成成本极低。

来源：README Features「Easy integration」

文本化 DOM 操作（不靠截图）

通过文本化的 DOM 操作完成交互，不需要截图、不需要多模态 LLM 或特殊权限，比视觉方案更轻、更省。

来源：README Features「Text-based DOM manipulation」

模型解耦（BYO LLM）

自带模型可换：可配置任意 OpenAI 兼容端点与模型（如阿里 DashScope 的 qwen3.5-plus），也有免费测试 LLM 供技术评估，按需接入自己的 LLM。

来源：README Features「Bring your own LLMs」/Quick Start（NPM 用法）

可选 Chrome 扩展与 MCP 服务器

可选 Chrome 扩展支持跨标签页的多页任务；并提供 Beta 的 MCP 服务器，让外部 agent 客户端从外面控制页内 agent / 浏览器。

来源：README Features（chrome extension/MCP Server Beta）/Use Cases

技术架构

Page Agent 是 TypeScript 实现、以 npm 包 page-agent 分发的客户端库（仓库为 packages/ 的 monorepo）。核心是一段在页面内运行的 agent：接收自然语言指令，读取并文本化当前 DOM，调用用户配置的 LLM 规划动作，再在页内执行点击、输入等 DOM 操作（其 DOM 处理与提示词派生自 browser-use）。它不依赖扩展/无头浏览器/截图，运行完全在浏览器页内。集成方式有二：一行 `<script>` 引入 IIFE 版（含免费 demo LLM，仅供评估）即自动初始化；或 `npm install page-agent` 后 `new PageAgent({model, baseURL, apiKey, language})` 再 `await agent.execute('...')`。可选 Chrome 扩展扩展到多标签页，MCP 服务器（Beta）供外部客户端控制。定位明确为「客户端网页增强」，不做服务端自动化。

来源：README Quick Start/Features/Acknowledgments、仓库目录（packages/docs/.agents）

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言TypeScript / JavaScript框架页内 GUI agent 库（基于 browser-use 的 DOM 处理）

关键依赖

OpenAI 兼容 LLM（如 DashScope qwen3.5-pl…browser-use（DOM 处理与提示词来源）可选 Chrome 扩展（多页）可选 MCP 服务器（Beta）

基础设施 / 部署

纯前端库，无后端；CDN 一行 <script> 或 npm 安装；运行于浏览器页内

来源：README Quick Start/Features/Acknowledgments

快速上手

最快试用：一行 `<script src="https://cdn.jsdelivr.net/npm/page-agent@1.8.2/dist/iife/page-agent.demo.js" crossorigin="true"></script>`（用其免费测试 LLM，仅供技术评估；加 ?autoInit=false 可不自动创建、改用 new window.PageAgent(...)）。生产用 npm：`npm install page-agent`，然后 `const agent = new PageAgent({ model:'qwen3.5-plus', baseURL:'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey:'YOUR_API_KEY', language:'en-US' })`，再 `await agent.execute('Click the login button')`。多页任务装可选 Chrome 扩展，外部控制用 MCP 服务器（Beta）。更多用法见官方文档。

来源：README Quick Start（One-line integration/NPM Installation）

使用场景

适合想给自家 Web 产品快速加「自然语言操作」能力的团队：几行代码给 SaaS 加一个 AI copilot（不用重写后端）、把 ERP/CRM/后台里 20 步的表单填写变成一句话、用自然语言/语音让任意 Web 应用更可访问（accessibility）、用 Chrome 扩展把自家 web agent 扩展到多标签页、或经 MCP 让 agent 客户端控制浏览器。它定位客户端增强而非服务端爬虫/自动化，适合「在用户浏览器里帮用户操作界面」的场景。

来源：README Use Cases 段

优势与局限

优势

集成极轻：纯页内 JS，无需扩展/Python/无头浏览器，一行 script 或 npm 即可，几行代码加 AI copilot。
文本化 DOM、不靠截图：不需要多模态模型或特殊权限，成本与延迟更低。
模型解耦、可扩展：BYO LLM（OpenAI 兼容），可选 Chrome 扩展做多页、MCP 供外部控制。
出自阿里、MIT 开源、约 1.8 万星，基于成熟的 browser-use，定位清晰。

局限

定位客户端网页增强、非服务端自动化，需要在浏览器页内运行，不适合后台批量爬取/自动化场景。
文本化 DOM 对高度自定义/canvas/复杂富交互页面的理解可能有限，效果随页面结构与所选 LLM 而异。
demo CDN 用免费测试 LLM 仅供评估，生产需自带 API key 并承担调用成本；让 agent 操作页面涉及用户授权与安全。
MCP 仍是 Beta，多页扩展需额外安装 Chrome 扩展。

来源：README Features/Quick Start（demo 声明）/Acknowledgments（client-side 定位）

总结评价

Page Agent 给「用自然语言操作网页」提供了一个少见地轻量的方案：把 GUI agent 做成页内 JavaScript，用文本化 DOM 操作而非截图，无需扩展、无头浏览器或多模态模型，几行代码就能给自家产品加一个能点按、填表的 AI copilot，还能 BYO LLM、可选多页扩展与 MCP。对想在用户浏览器里增强交互、做表单自动化或可访问性的前端团队，它非常对路，出自阿里、MIT、近 2 万星也很有分量。要清楚它定位客户端增强而非服务端自动化、文本化 DOM 对复杂页面有局限、生产需自带模型与授权、MCP 尚 Beta。作为「住在网页里的 GUI agent」，它的集成成本与定位都相当聪明。

来源：综合 README、Features、Use Cases 与 GitHub meta 的事实判断

常见问题

page-agent 是什么？

Page Agent（阿里巴巴出品）是一个「住在网页里」的 JavaScript GUI 智能体：用自然语言控制网页界面。它最大的特点是无需浏览器扩展、无需 Python、无需无头浏览器——只是一段页内 JavaScript，一切都在你的网页里发生。

page-agent 有哪些核心功能？

page-agent 的核心功能包括：页内 JS、零额外环境、文本化 DOM 操作（不靠截图）、模型解耦（BYO LLM）、可选 Chrome 扩展与 MCP 服务器。

page-agent 为什么最近很受关注？

page-agent 适合哪些使用场景？

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-05-23 19:49. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件