MobileAgent 是什么?

Mobile-Agent(X-PLUG/MobileAgent)是阿里巴巴通义实验室(Tongyi Lab)推出的 GUI 智能体系列工作合集,目标是让多模态大模型「看屏幕、点界面」自动完成手机/桌面/浏览器上的操作任务。仓库汇集了从初代 Mobile-Agent 到 v2、v3、v3.5 的多代框架,以及配套的基础模型 GUI-Owl/GUI-Owl-1.5(基于 Qwen3-VL,2B/4B/8B/32B/235B,Instruct 与 Thinking 版)和多项研究(UI-S1、GUI-Critic-R1、PC-Agent、ToolCUA 等)。许可为 MIT,约 8,710 stars,并提供在线 Demo 与百炼 API。

⭐ 8,386 Stars 🍴 847 Forks Python MIT 作者: X-PLUG
来源:README.md(标题、News、Series of Work、模型集合链接);GitHub 仓库元数据(stars=8710、license=MIT) 查看 GitHub 仓库 →

为什么值得关注

GUI/Computer-Use Agent 是当下热点,而 Mobile-Agent 是该方向较早且持续产出的代表:初代被 ICLR 2024 Workshop 接收、v2 入选 NeurIPS 2024,配套的 GUI-Owl-1.5 宣称在 20+ GUI benchmark 上取得 SOTA,且有阿里云无影云手机、ModelScope/百炼在线 Demo 降低体验门槛,更新频繁(2026 年 5 月仍在迭代 ToolCUA)。这些学术认可、开源模型权重与可直接试用的入口共同带来关注。SOTA 等指标来自其技术报告,应以原文与第三方复现为准。截至数据采集约 8,710 stars。

来源:README.md(News 的会议接收、SOTA 表述、Demo/API 链接);GitHub 仓库元数据(stars=8710、pushed_at 2026-05)

核心功能

跨平台 GUI 自动操作

通过多模态模型理解屏幕并执行点击/输入等操作,覆盖移动、桌面与浏览器场景。

来源:README.md(GUI-Owl-1.5 支持 desktop/mobile/browser 表述)
多智能体框架(规划/反思/记忆)

Mobile-Agent-v3/v3.5 在 GUI-Owl 之上提供规划、进度管理、反思与记忆,支撑长程任务。

来源:README.md(2025.8.20 对 v3 的能力描述)
开源基础模型 GUI-Owl 系列

GUI-Owl/GUI-Owl-1.5 基于 Qwen3-VL,多尺寸(2B–235B)开放权重,含 grounding、工具/MCP 调用能力。

来源:README.md(GUI-Owl-1.5 发布说明、HuggingFace/ModelScope 集合)
在线 Demo 与 API

提供 ModelScope/百炼在线 Demo 与无影云手机环境,及百炼上的 v3.5 API,可免本地部署快速体验。

来源:README.md(Demo、Bailian API、无影云手机链接)

技术架构

仓库是「模型 + 多代框架」的系列工程,按子目录组织各代工作:Mobile-Agent-v3/v3.5 是基于 GUI-Owl 的跨平台多智能体框架,提供规划、进度管理、反思与记忆等能力;GUI-Owl/GUI-Owl-1.5 是底层多模态 GUI 基础模型,具备界面感知、grounding 与端到端操作能力,支持桌面/移动/浏览器自动化及工具/MCP 调用、长程记忆。其余子目录为研究产物:UI-S1(半在线 RL)、GUI-Critic-R1(操作前错误诊断)、ToolCUA(GUI-工具路径编排,两阶段训练)等。整体以 Python 实现,并在 OSWorld、AndroidWorld、真实手机等环境提供评测代码。

来源:README.md(Series of Work、News 的能力描述、各子目录链接);GitHub 仓库元数据(language=Python)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) GUI-Owl / GUI-Owl-1.5(基于 Qwen3-VL)GUI-Owl / GUI-… 多模态大模型推理 OSWorld / AndroidWorld 评测环境OSWorld / Andr… 跨平台 GUI 自动操作 多智能体框架(规划/反思/记忆)多智能体框架(规划/反… 开源基础模型 GUI-Owl 系列开源基础模型 GUI-Owl… 在线 Demo 与 API MobileAgent 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架多模态 GUI 智能体框架(GUI-Owl 模型 + Mobile-Agent 多智能体)
GUI-Owl / GUI-Owl-1.5(基于 Qwen3-VL)多模态大模型推理OSWorld / AndroidWorld 评测环境
HuggingFace/ModelScope 模型托管;阿里云百炼 API、无影云手机;MIT
来源:README.md(GUI-Owl 基于 Qwen3-VL、评测环境、Demo/API);GitHub 仓库元数据(language=Python)

快速上手

最快体验是用官方在线 Demo(ModelScope/百炼)或无影云手机,无需本地部署模型或准备设备,直接输入指令。要自行运行,可按对应子目录(如 Mobile-Agent-v3/v3.5)的 README 配置环境,并使用 GUI-Owl 权重(HuggingFace/ModelScope)或调用百炼 v3.5 API;仓库还提供在 OSWorld、AndroidWorld、真实手机上的部署与评测代码。各代框架与模型尺寸要求不同,请以对应子目录文档为准。
来源:README.md(Demo、各子目录 README、评测/部署链接、Bailian API)

使用场景

适合做 GUI/Computer-Use Agent 研究与应用的团队:用 GUI-Owl 模型做界面感知与 grounding,用 Mobile-Agent 框架做手机/桌面/浏览器的端到端任务自动化(如表单填写、应用操作、跨应用流程);也适合在 OSWorld/AndroidWorld 等 benchmark 上复现与评测,或作为 GUI agent 训练(半在线 RL、错误诊断、工具编排)的参考实现。落地真实自动化需结合权限、稳定性与安全评估。

来源:README.md(能力描述、评测环境、Series of Work)

优势与局限

优势

  • 方向上较早且持续产出,多项工作被 ICLR/NeurIPS/ACL 接收
  • 模型与框架双线开源,GUI-Owl 提供多尺寸权重
  • 跨平台(移动/桌面/浏览器)能力与多智能体规划/记忆
  • 在线 Demo 与 API 降低体验门槛,更新活跃

局限

  • SOTA 等指标源自自家技术报告,需第三方复现佐证
  • 代际与子项目多,结构较分散,上手需先理清版本
  • 真实设备自动化涉及权限与稳定性,落地有工程成本
  • 大尺寸模型推理资源要求高
来源:README.md(News 会议接收、SOTA 表述、Series of Work、模型尺寸)

最新版本

本页未列单一版本号;近期节奏:2026.5.12 发布 ToolCUA(GUI-工具路径编排,两阶段训练);2026.3 起 GUI-Owl-1.5 上线在线推理与无影云手机;2026.2.14 发布 GUI-Owl-1.5(基于 Qwen3-VL,2B–235B,Instruct/Thinking)。仓库最后更新约在 2026 年 5 月,更新以各子项目论文/代码/权重发布为主。

来源:README.md(News 时间线);GitHub pushed_at

总结评价

Mobile-Agent 是阿里通义实验室在 GUI/Computer-Use Agent 方向的系列开源工作:以 GUI-Owl 基础模型 + Mobile-Agent 多智能体框架双线推进,覆盖移动/桌面/浏览器自动化,配套多项被顶会接收的研究与可直接试用的 Demo/API,更新活跃、生态完整,对该方向研究者很有参考价值。需注意 SOTA 指标来自自家报告需复现佐证、代际与子项目较多需先理清版本、真实设备自动化有权限与稳定性成本。作为 GUI agent 的开源参考体系,它分量足、入口友好。

来源:综合 README.md 的系列定位、模型/框架能力与更新现状
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 15:40. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件