Video2GUI 是什么？WildGUI 1200 万轨迹数据集详解（142↑）

为什么这篇论文值得关注

GUI Agent（图形界面智能体）是过去 12 个月里最热的 Agent 方向之一——它能"看屏幕、点鼠标、敲键盘"，自动操作软件完成任务。从 OpenAI 的 Operator、Anthropic 的 Computer Use，到国内的智谱 AutoGLM、字节豆包 GUI Agent 等，所有大厂都在投入。

但 GUI Agent 的数据瓶颈极其严重：

人工标注成本高：一条优质的"打开 Excel→输入数据→生成图表"的轨迹标注，需要专业标注员录屏并手工标记每一步动作语义。
覆盖应用窄：现有数据集大多集中在浏览器（如 Mind2Web）或少数几个常见 App，长尾应用几乎为零。
跨平台数据稀缺：Windows、macOS、Linux、iOS、Android 各自有独立的 UI 体系，统一收集成本巨大。

Video2GUI 选了一条跳过人工标注、直接吃互联网视频的路——这是数据规模化的"教科书级"解法（类似 LAION 用网页爬图训练 Stable Diffusion）。在 HuggingFace 拿 142 票，对一个"数据集论文"来说热度相当高。

核心技术：粗到精的视频过滤

第 1 层 / 粗过滤

5 亿视频元数据 → 候选教程视频

从互联网视频平台获取 5 亿条视频元数据（标题、描述、tag、时长等），用基于规则和轻量分类器的方式做粗过滤——保留"软件教程""操作演示""How-to 类"等大概率包含 GUI 交互的视频。这一步主要是排除娱乐、游戏直播等噪音。

第 2 层 / 细过滤

视频内容质量评估

对候选视频做内容级过滤：是否真的展示 GUI 操作、操作是否清晰可见、是否有完整任务流程、屏幕录制质量是否足够。这一步通常需要更重的模型（VLM 或专门的 quality classifier）。

第 3 层 / 轨迹提取

从视频中提取动作轨迹

对通过细过滤的视频做动作轨迹提取——识别每个操作步骤的位置（屏幕坐标）、动作类型（点击/输入/滚动/拖拽）、上下文（前后界面状态）。最终从 5 亿候选中沉淀出 1200 万条高质量 GUI 交互轨迹。

WildGUI 数据集规模

指标	WildGUI（本文）	典型已有数据集
视频源	5 亿条候选元数据	人工录屏（千-万级）
提取轨迹数	1200 万条	1-10 万条
覆盖应用/网站	1500+	10-100
标注方式	自动提取（无人工）	人工标注
构建成本	计算成本为主	人工标注成本为主

规模上 WildGUI 比已有公开数据集大 2-3 个数量级，覆盖广度上也大幅领先。这是它最大的差异化优势。

实验效果

论文在两个开源 VLM 上做了预训练验证：

Qwen2.5-VL（阿里通义千问视觉版）
Mimo-VL

预训练后在多个 GUI 基准上一致提升 5-20%，达到或超越当前最优性能。abstract 没给具体每个 benchmark 的数字，但"一致提升 5-20%"对预训练数据集论文来说已经是很强的结果。

它能用来做什么

GUI Agent 厂商训练自家模型：用 WildGUI 作为预训练数据源，直接补足跨应用泛化能力。
RPA 工具集成：传统 RPA（UiPath、Automation Anywhere）想加 AI 能力，可以用类似的视频→轨迹流程构建专有数据。
跨平台 GUI 理解：训练单一模型处理 Windows/macOS/iOS/Android 多平台 UI（互联网视频天然跨平台）。
视障辅助技术：GUI 理解模型用于屏幕阅读器、语音控制等无障碍场景。
软件测试自动化：基于自然语言指令的端到端 UI 测试。

当前局限

1. 自动提取的轨迹质量不可控。 1200 万条中有多少是"有效信号"、多少是"看似正确实际错误"的轨迹？abstract 没给质量评估细节。

2. 数据集是否开源未明。 abstract 没明确说 WildGUI 数据集是否完全公开下载（视频版权可能阻挡完全开源），也许只发布提取后的轨迹标注。

3. 视频元数据来源未公开。 5 亿视频元数据从哪里获取（YouTube、Bilibili、TikTok 等）？是否涉及爬虫合规？

4. 长尾应用覆盖均匀度未知。 1500+ 应用整体覆盖广，但每个应用的轨迹数量可能极度不均（流行应用上万，长尾应用只有几十）。

5. 中文应用占比未知。 互联网视频以英文内容为主，中文工具（钉钉、企业微信、WPS 等）的覆盖情况需要看数据集统计。

作者与机构

论文 8 位作者：Weimin Xiong、Shuhao Gu、Bowen Ye、Zihao Yue、Lei Li、Feifan Song、Sujian Li、Hao Tian。其中 Sujian Li 是北京大学知名 NLP 教授，团队多人有北大计算语言所背景。论文 abstract 未明确机构归属。

资源链接

论文：arXiv:2605.14747
HuggingFace Papers：huggingface.co/papers/2605.14747（142 upvotes）
GitHub / 数据集：abstract 未提供链接，需查论文正文或后续 release

总结评价

Video2GUI 不是某个具体 GUI Agent 模型，而是GUI Agent 训练栈的"数据层"基础设施。它本质上是把 GUI Agent 从"人工标注 → 数据稀缺 → 模型泛化差"的死循环中解脱出来。

未来 6-12 个月，预计会看到两个方向的跟进：

方法层：Video→Trajectory 提取的精度、跨平台对齐、长尾应用补充等细化研究。
应用层：基于 WildGUI 这种规模数据集训练出的开源 GUI Agent 模型（类似 LAION 之后出现的 Stable Diffusion 时刻）。

对企业级 GUI 自动化、RPA 工具厂商：这条路线如果成熟，GUI Agent 的开源能力会快速逼近商业闭源方案，类似 Llama 系列对 GPT 的追赶。这对所有依赖"GUI 自动化能力收费"的产品都是中长期挑战。

关于本页：本文是恩筑 AI 研究团队对 Video2GUI 论文（arXiv:2605.14747v1）的中文深度解读，基于论文 abstract 公开信息撰写。事实性陈述可追溯到 arXiv，定性判断代表团队观点。如有事实错误欢迎反馈到 contact@ngjoo.com。

Video2GUI 是什么？WildGUI 数据集如何用 1200 万视频轨迹训练 GUI Agent