Page Agent(阿里巴巴出品)是一个「住在网页里」的 JavaScript GUI 智能体:用自然语言控制网页界面。它最大的特点是无需浏览器扩展、无需 Python、无需无头浏览器——只是一段页内 JavaScript,一切都在你的网页里发生。它走「文本化 DOM 操作」路线(不靠截图、不需要多模态 LLM 或特殊权限),自带模型解耦(bring your own LLM),并可选搭配 Chrome 扩展做多页任务、以及一个 Beta 的 MCP 服务器从外部控制。TypeScript、MIT 开源、约 1.8 万星,npm 包 page-agent,定位是「客户端网页增强」而非服务端自动化,构建在 browser-use 之上。
来源:README 顶部简介/Features/Acknowledgments、GitHub meta(alibaba/page-agent,TypeScript,MIT,homepage alibaba.github.io/page-agent) 查看 GitHub 仓库 →让 AI 用自然语言操作网页通常要么靠浏览器扩展+无头浏览器(重、要权限),要么靠多模态模型读截图(贵)。Page Agent 给了一个轻巧的反向思路:把 agent 做成页内 JS,用文本化 DOM 操作完成点击/填表等动作,几行代码就能给自家产品加一个 AI copilot,不用改后端、不装扩展、不用多模态。出自阿里、MIT 开源、有 HN 讨论与在线 demo,定位实用,因此快速涨到约 1.8 万星。
来源:README Features/Use Cases/Quick Start、GitHub meta(stars 18043、created_at 2025-09-23、pushed_at 2026-05-11)无需浏览器扩展、Python 或无头浏览器,仅一段页内 JavaScript 即可运行,agent 直接在你的网页里操作界面,集成成本极低。
来源:README Features「Easy integration」通过文本化的 DOM 操作完成交互,不需要截图、不需要多模态 LLM 或特殊权限,比视觉方案更轻、更省。
来源:README Features「Text-based DOM manipulation」自带模型可换:可配置任意 OpenAI 兼容端点与模型(如阿里 DashScope 的 qwen3.5-plus),也有免费测试 LLM 供技术评估,按需接入自己的 LLM。
来源:README Features「Bring your own LLMs」/Quick Start(NPM 用法)可选 Chrome 扩展支持跨标签页的多页任务;并提供 Beta 的 MCP 服务器,让外部 agent 客户端从外面控制页内 agent / 浏览器。
来源:README Features(chrome extension/MCP Server Beta)/Use CasesPage Agent 是 TypeScript 实现、以 npm 包 page-agent 分发的客户端库(仓库为 packages/ 的 monorepo)。核心是一段在页面内运行的 agent:接收自然语言指令,读取并文本化当前 DOM,调用用户配置的 LLM 规划动作,再在页内执行点击、输入等 DOM 操作(其 DOM 处理与提示词派生自 browser-use)。它不依赖扩展/无头浏览器/截图,运行完全在浏览器页内。集成方式有二:一行 ``(用其免费测试 LLM,仅供技术评估;加 ?autoInit=false 可不自动创建、改用 new window.PageAgent(...))。生产用 npm:`npm install page-agent`,然后 `const agent = new PageAgent({ model:'qwen3.5-plus', baseURL:'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey:'YOUR_API_KEY', language:'en-US' })`,再 `await agent.execute('Click the login button')`。多页任务装可选 Chrome 扩展,外部控制用 MCP 服务器(Beta)。更多用法见官方文档。
适合想给自家 Web 产品快速加「自然语言操作」能力的团队:几行代码给 SaaS 加一个 AI copilot(不用重写后端)、把 ERP/CRM/后台里 20 步的表单填写变成一句话、用自然语言/语音让任意 Web 应用更可访问(accessibility)、用 Chrome 扩展把自家 web agent 扩展到多标签页、或经 MCP 让 agent 客户端控制浏览器。它定位客户端增强而非服务端爬虫/自动化,适合「在用户浏览器里帮用户操作界面」的场景。
来源:README Use Cases 段项目以 npm 包 page-agent 持续发布(README 示例为 1.8.2),提供 CDN IIFE 与 npm 两种集成。功能已覆盖页内文本化 DOM 操作、BYO LLM、可选 Chrome 扩展(多页)与 MCP 服务器(Beta)。MIT 开源,有在线 demo 与文档。仓库最近一次更新在 2026-05-11。
来源:README Quick Start(版本 1.8.2)/Features、GitHub meta pushed_at 2026-05-11、created_at 2025-09-23Page Agent 给「用自然语言操作网页」提供了一个少见地轻量的方案:把 GUI agent 做成页内 JavaScript,用文本化 DOM 操作而非截图,无需扩展、无头浏览器或多模态模型,几行代码就能给自家产品加一个能点按、填表的 AI copilot,还能 BYO LLM、可选多页扩展与 MCP。对想在用户浏览器里增强交互、做表单自动化或可访问性的前端团队,它非常对路,出自阿里、MIT、近 2 万星也很有分量。要清楚它定位客户端增强而非服务端自动化、文本化 DOM 对复杂页面有局限、生产需自带模型与授权、MCP 尚 Beta。作为「住在网页里的 GUI agent」,它的集成成本与定位都相当聪明。
来源:综合 README、Features、Use Cases 与 GitHub meta 的事实判断