Video2GUI 是什么?WildGUI 数据集如何用 1200 万视频轨迹训练 GUI Agent

arXiv:2605.14747 2026-05-14 发布 👍 142 upvotes(W20-W21) 1200 万轨迹 1500+ 应用

Video2GUI 是 2026 年 5 月发布的 GUI Agent 预训练数据规模化方案。它的核心思路是把"互联网上海量的教程/演示视频"自动转化为"GUI 交互轨迹"——用粗到精过滤策略从 5 亿条视频元数据中提取出 1200 万条高质量交互轨迹,构建覆盖 1500+ 应用和网站的 WildGUI 数据集。预训练后在 Qwen2.5-VL、Mimo-VL 等模型上带来 5-20% 一致提升。HuggingFace 上获 142 票。

为什么这篇论文值得关注

GUI Agent(图形界面智能体)是过去 12 个月里最热的 Agent 方向之一——它能"看屏幕、点鼠标、敲键盘",自动操作软件完成任务。从 OpenAI 的 Operator、Anthropic 的 Computer Use,到国内的智谱 AutoGLM、字节豆包 GUI Agent 等,所有大厂都在投入。

但 GUI Agent 的数据瓶颈极其严重:

Video2GUI 选了一条跳过人工标注、直接吃互联网视频的路——这是数据规模化的"教科书级"解法(类似 LAION 用网页爬图训练 Stable Diffusion)。在 HuggingFace 拿 142 票,对一个"数据集论文"来说热度相当高。

核心技术:粗到精的视频过滤

第 1 层 / 粗过滤

5 亿视频元数据 → 候选教程视频

从互联网视频平台获取 5 亿条视频元数据(标题、描述、tag、时长等),用基于规则和轻量分类器的方式做粗过滤——保留"软件教程""操作演示""How-to 类"等大概率包含 GUI 交互的视频。这一步主要是排除娱乐、游戏直播等噪音。

第 2 层 / 细过滤

视频内容质量评估

对候选视频做内容级过滤:是否真的展示 GUI 操作、操作是否清晰可见、是否有完整任务流程、屏幕录制质量是否足够。这一步通常需要更重的模型(VLM 或专门的 quality classifier)。

第 3 层 / 轨迹提取

从视频中提取动作轨迹

对通过细过滤的视频做动作轨迹提取——识别每个操作步骤的位置(屏幕坐标)、动作类型(点击/输入/滚动/拖拽)、上下文(前后界面状态)。最终从 5 亿候选中沉淀出 1200 万条高质量 GUI 交互轨迹

WildGUI 数据集规模

指标WildGUI(本文)典型已有数据集
视频源5 亿条候选元数据人工录屏(千-万级)
提取轨迹数1200 万条1-10 万条
覆盖应用/网站1500+10-100
标注方式自动提取(无人工)人工标注
构建成本计算成本为主人工标注成本为主

规模上 WildGUI 比已有公开数据集大 2-3 个数量级,覆盖广度上也大幅领先。这是它最大的差异化优势。

实验效果

论文在两个开源 VLM 上做了预训练验证:

预训练后在多个 GUI 基准上一致提升 5-20%,达到或超越当前最优性能。abstract 没给具体每个 benchmark 的数字,但"一致提升 5-20%"对预训练数据集论文来说已经是很强的结果。

它能用来做什么

当前局限

1. 自动提取的轨迹质量不可控。 1200 万条中有多少是"有效信号"、多少是"看似正确实际错误"的轨迹?abstract 没给质量评估细节。

2. 数据集是否开源未明。 abstract 没明确说 WildGUI 数据集是否完全公开下载(视频版权可能阻挡完全开源),也许只发布提取后的轨迹标注。

3. 视频元数据来源未公开。 5 亿视频元数据从哪里获取(YouTube、Bilibili、TikTok 等)?是否涉及爬虫合规?

4. 长尾应用覆盖均匀度未知。 1500+ 应用整体覆盖广,但每个应用的轨迹数量可能极度不均(流行应用上万,长尾应用只有几十)。

5. 中文应用占比未知。 互联网视频以英文内容为主,中文工具(钉钉、企业微信、WPS 等)的覆盖情况需要看数据集统计。

作者与机构

论文 8 位作者:Weimin Xiong、Shuhao Gu、Bowen Ye、Zihao Yue、Lei Li、Feifan Song、Sujian Li、Hao Tian。其中 Sujian Li 是北京大学知名 NLP 教授,团队多人有北大计算语言所背景。论文 abstract 未明确机构归属。

资源链接

总结评价

Video2GUI 不是某个具体 GUI Agent 模型,而是GUI Agent 训练栈的"数据层"基础设施。它本质上是把 GUI Agent 从"人工标注 → 数据稀缺 → 模型泛化差"的死循环中解脱出来。

未来 6-12 个月,预计会看到两个方向的跟进:

对企业级 GUI 自动化、RPA 工具厂商:这条路线如果成熟,GUI Agent 的开源能力会快速逼近商业闭源方案,类似 Llama 系列对 GPT 的追赶。这对所有依赖"GUI 自动化能力收费"的产品都是中长期挑战。

关于本页:本文是恩筑 AI 研究团队对 Video2GUI 论文(arXiv:2605.14747v1)的中文深度解读,基于论文 abstract 公开信息撰写。事实性陈述可追溯到 arXiv,定性判断代表团队观点。如有事实错误欢迎反馈到 contact@ngjoo.com