Mobile-Agent(X-PLUG/MobileAgent)是阿里巴巴通义实验室(Tongyi Lab)推出的 GUI 智能体系列工作合集,目标是让多模态大模型「看屏幕、点界面」自动完成手机/桌面/浏览器上的操作任务。仓库汇集了从初代 Mobile-Agent 到 v2、v3、v3.5 的多代框架,以及配套的基础模型 GUI-Owl/GUI-Owl-1.5(基于 Qwen3-VL,2B/4B/8B/32B/235B,Instruct 与 Thinking 版)和多项研究(UI-S1、GUI-Critic-R1、PC-Agent、ToolCUA 等)。许可为 MIT,约 8,710 stars,并提供在线 Demo 与百炼 API。
来源:README.md(标题、News、Series of Work、模型集合链接);GitHub 仓库元数据(stars=8710、license=MIT) 查看 GitHub 仓库 →GUI/Computer-Use Agent 是当下热点,而 Mobile-Agent 是该方向较早且持续产出的代表:初代被 ICLR 2024 Workshop 接收、v2 入选 NeurIPS 2024,配套的 GUI-Owl-1.5 宣称在 20+ GUI benchmark 上取得 SOTA,且有阿里云无影云手机、ModelScope/百炼在线 Demo 降低体验门槛,更新频繁(2026 年 5 月仍在迭代 ToolCUA)。这些学术认可、开源模型权重与可直接试用的入口共同带来关注。SOTA 等指标来自其技术报告,应以原文与第三方复现为准。截至数据采集约 8,710 stars。
来源:README.md(News 的会议接收、SOTA 表述、Demo/API 链接);GitHub 仓库元数据(stars=8710、pushed_at 2026-05)通过多模态模型理解屏幕并执行点击/输入等操作,覆盖移动、桌面与浏览器场景。
来源:README.md(GUI-Owl-1.5 支持 desktop/mobile/browser 表述)Mobile-Agent-v3/v3.5 在 GUI-Owl 之上提供规划、进度管理、反思与记忆,支撑长程任务。
来源:README.md(2025.8.20 对 v3 的能力描述)GUI-Owl/GUI-Owl-1.5 基于 Qwen3-VL,多尺寸(2B–235B)开放权重,含 grounding、工具/MCP 调用能力。
来源:README.md(GUI-Owl-1.5 发布说明、HuggingFace/ModelScope 集合)提供 ModelScope/百炼在线 Demo 与无影云手机环境,及百炼上的 v3.5 API,可免本地部署快速体验。
来源:README.md(Demo、Bailian API、无影云手机链接)仓库是「模型 + 多代框架」的系列工程,按子目录组织各代工作:Mobile-Agent-v3/v3.5 是基于 GUI-Owl 的跨平台多智能体框架,提供规划、进度管理、反思与记忆等能力;GUI-Owl/GUI-Owl-1.5 是底层多模态 GUI 基础模型,具备界面感知、grounding 与端到端操作能力,支持桌面/移动/浏览器自动化及工具/MCP 调用、长程记忆。其余子目录为研究产物:UI-S1(半在线 RL)、GUI-Critic-R1(操作前错误诊断)、ToolCUA(GUI-工具路径编排,两阶段训练)等。整体以 Python 实现,并在 OSWorld、AndroidWorld、真实手机等环境提供评测代码。
来源:README.md(Series of Work、News 的能力描述、各子目录链接);GitHub 仓库元数据(language=Python)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
GUI-Owl / GUI-Owl-1.5(基于 Qwen3-VL)多模态大模型推理OSWorld / AndroidWorld 评测环境适合做 GUI/Computer-Use Agent 研究与应用的团队:用 GUI-Owl 模型做界面感知与 grounding,用 Mobile-Agent 框架做手机/桌面/浏览器的端到端任务自动化(如表单填写、应用操作、跨应用流程);也适合在 OSWorld/AndroidWorld 等 benchmark 上复现与评测,或作为 GUI agent 训练(半在线 RL、错误诊断、工具编排)的参考实现。落地真实自动化需结合权限、稳定性与安全评估。
来源:README.md(能力描述、评测环境、Series of Work)本页未列单一版本号;近期节奏:2026.5.12 发布 ToolCUA(GUI-工具路径编排,两阶段训练);2026.3 起 GUI-Owl-1.5 上线在线推理与无影云手机;2026.2.14 发布 GUI-Owl-1.5(基于 Qwen3-VL,2B–235B,Instruct/Thinking)。仓库最后更新约在 2026 年 5 月,更新以各子项目论文/代码/权重发布为主。
来源:README.md(News 时间线);GitHub pushed_atMobile-Agent 是阿里通义实验室在 GUI/Computer-Use Agent 方向的系列开源工作:以 GUI-Owl 基础模型 + Mobile-Agent 多智能体框架双线推进,覆盖移动/桌面/浏览器自动化,配套多项被顶会接收的研究与可直接试用的 Demo/API,更新活跃、生态完整,对该方向研究者很有参考价值。需注意 SOTA 指标来自自家报告需复现佐证、代际与子项目较多需先理清版本、真实设备自动化有权限与稳定性成本。作为 GUI agent 的开源参考体系,它分量足、入口友好。
来源:综合 README.md 的系列定位、模型/框架能力与更新现状