Gamma-World / DVAO / AgentDoG — 2026 W22 AI 论文周报（8 篇精选）

本周三个趋势

1. 世界模型从"单 Agent"迈向"多 Agent 共享空间"
Gamma-World（357↑）是 W22 最高票论文，并且票数远超第二名，传递的信号非常清晰：生成式世界模型正式跨过"单一控制信号生成画面"这条门槛，进入"多个玩家/机器人/具身体在共享空间内同时行动"的多智能体阶段。WBench（98↑）则同步给出首个交互式视频世界模型的多轮评测，从 5 个维度（视频质量、设置遵从、交互遵从、一致性、可控性）统一度量。TriSplat（50↑）从另一侧切入——3D 重建直接输出可直接送入物理仿真的网格。三篇组合释放的判断：世界模型不再是"做漂亮画面"，而是开始为多智能体仿真、具身训练提供可用的"世界基座"。

2. RL 后训练向"多奖励 + Agent 工具使用"专项化
DVAO（131↑）切入一个被忽视的工程痛点：GRPO 在单奖励上效率高，但在真实业务场景（合规性 + 正确性 + 简洁性 + ...多个奖励并存）下，简单标量化会让训练失稳。DVAO 提出方差自适应优势优化，让多奖励调度可控。AXPO（78↑）针对的是另一个结构性问题——Agent 训练中"思考（低方差、内生）"和"工具使用（高方差、外生）"的天然不对称，会让朴素 RL 在工具维度上崩溃。Bidirectional Evolutionary Search（52↑）则用双向进化代替朴素 best-of-N。三篇共同传递的判断：RL 后训练从"单一通解"走向"针对子问题（多奖励、工具调用、搜索）的专项算法"，是后训练算法库的进一步成熟。

3. Agent 进入"安全 + UI + 跨实体"的部署生态
本期出现了一批不性感但决定 Agent 能否真正落地的工作。AgentDoG 1.5（107↑）针对开放世界 Agent（如 OpenClaw）的安全风险，提供轻量级实时对齐框架——Agent 安全的关注点从"对齐输出文本"扩展到"对齐跨环境执行行为"。Qwen-VLA（92↑）在 VLA 路线上把"任务、环境、机器人载体"三个维度合并到一个模型，破解 embodied 智能的碎片化。Macaron-A2UI（77↑）把 Agent 的出口从"纯文本"推进到"实时生成 UI"，让个人 Agent 真正适配复杂任务的交互需求。LocateAnything（124↑）则补齐基础视觉能力——把视觉定位的逐 token 串行解码改成并行整框解码，对 GUI Agent 和机器人感知都是直接受益。结论：Agent 研究的下一阶段竞争点是「能不能安全部署、能不能跨载体、能不能给用户一个像样的界面、能不能高效感知」——四件事都做对，才能从研究 demo 走到产品。

本周精选论文（8 篇）

1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

👍 357 upvotes 📚 cs.CV 📅 2026-05-27

原生多智能体世界模型，超越双玩家，支持任意 N-Agent 在共享空间协同仿真

解决什么问题：用于交互式视频生成的世界模型主要聚焦单 Agent 场景——未来观测从单一控制信号生成。但很多生成环境需要多 Agent 交互（多个玩家、机器人或具身体在共享空间内同时行动），现有方法直接扩展会遇到组合爆炸和一致性失控。
核心方法：Gamma-World 在原理上重新设计了世界模型架构，让多 Agent 动作可以原生作为联合条件输入，跨 Agent 的状态共享在共享潜空间内一致演化，超越只支持双玩家的特例。

为什么值得关注：W22 最高票论文（357 upvotes，远超第二名）。这是世界模型从"单 Agent 生成"跨入"多 Agent 共享空间"的里程碑节点，对游戏 AI、具身仿真、自动驾驶训练都是底座级基础设施。

HuggingFace arXiv

世界模型多智能体生成式具身仿真Gamma-World

2. DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward RL

👍 131 upvotes 📚 cs.LG 📅 2026-05-25

方差自适应多奖励优势优化，破解 GRPO 在真实多奖励场景的标量化失效

解决什么问题：GRPO 提供了无需 value model 的高效 RL 替代方案，但适配真实业务（多奖励：正确性 + 安全性 + 简洁性 + ...）时，常用的奖励组合标量化策略会因不同奖励方差差异巨大而失稳——某个高方差奖励会主导优势计算，其他奖励几乎被忽略。
核心方法：DVAO 引入动态方差自适应优势：根据每个奖励维度的实时方差自适应缩放贡献，避免高方差奖励吞掉其他奖励的训练信号。

为什么值得关注：所有做 RLHF/RLVR 工业落地的团队都会遇到"加一个奖励训练就崩"的经典问题。DVAO 提供了一个简单可叠加的修正方案，是 GRPO 系工具链的实用补强。

HuggingFace arXiv

GRPO多奖励强化学习方差自适应DVAO

3. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

👍 124 upvotes 📚 cs.CV 📅 2026-05-26

把视觉定位从"坐标 token 串行解码"改为"整框并行解码"，提速且统一框架

解决什么问题：当前 VLM 在视觉定位/检测任务上，把每个 2D bbox 序列化成多个 1D 坐标 token 然后串行解码——既割裂了 box 几何的耦合结构，又因为严格的顺序生成成为推理瓶颈。
核心方法：LocateAnything 提出并行框解码：把每个 bbox 作为一个整体并行预测，恢复 box 内部几何的耦合关系，同时大幅降低推理延迟。

为什么值得关注：视觉定位是 GUI Agent（点哪里）、机器人（抓什么）、视觉问答（指哪里）共用的基础能力。LocateAnything 的速度+质量双提升，对所有依赖视觉定位的下游应用都是直接收益。

HuggingFace arXiv

视觉定位VLM并行解码检测

4. AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

👍 107 upvotes 📚 cs.AI 📅 2026-05-28

面向开放世界 Agent（如 OpenClaw）的轻量级实时安全对齐框架

解决什么问题：现代开放世界 Agent（如 OpenClaw）有强大的跨环境执行能力，但也带来了全新的安全风险面——同时，前沿 AI 模型大幅降低了攻击门槛，让现有 Agent 对齐框架在真实部署中显得不够用。
核心方法：AgentDoG 1.5 提供一个轻量级、可扩展的实时对齐框架，专门处理 Agent 的"行为对齐"而不是单纯"输出对齐"——在 Agent 跨环境执行的每一步进行实时风险评估和拦截。

为什么值得关注：Agent 商业化最大的拦路虎之一就是安全风险。AgentDoG 1.5 把 Agent 安全从"训练时对齐"延伸到"运行时对齐"，是 Agent 进入企业部署的必要基础设施。

HuggingFace arXiv

Agent安全对齐OpenClaw实时防护

5. WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

👍 98 upvotes 📚 cs.CV 📅 2026-05-25

首个交互式视频世界模型多轮评测基准，覆盖 5 个核心能力维度

解决什么问题：交互式世界模型快速发展，但现有基准只覆盖部分必需能力，缺少统一标尺。
核心方法：WBench 提出多轮交互评测协议，从视频质量、设置遵从、交互遵从、一致性、可控性5 个维度系统度量世界模型的真实可用性。

为什么值得关注：和 Gamma-World 形成完整组合——一边拓展能力，一边补齐评测。WBench 让"世界模型谁更好用"第一次有了可度量的统一答案。

HuggingFace arXiv

世界模型评测基准多轮交互WBench

6. Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

👍 92 upvotes 📚 cs.RO 📅 2026-05-28

在单个 VLA 模型内统一不同任务、环境与机器人载体，破解 embodied 智能的碎片化

解决什么问题：具身智能研究常常为每个任务训练专门模型（操作、导航各一份），导致能力碎片化，跨任务、跨环境、跨机器人载体的泛化能力差。
核心方法：Qwen-VLA 探索是否能用单一 VLA 模型统一异构具身决策问题。模型在跨任务、跨环境、跨机器人载体的数据上联合训练，验证统一架构是否能产生跨载体迁移能力。

为什么值得关注：和上期 MolmoAct2、RLDX-1 一脉相承——VLA 路线从"专项可部署"继续推进到"通用可迁移"。如果"一份权重适配多个机器人"成立，将极大降低机器人 AI 的工程成本。

HuggingFace arXiv

VLA跨载体Qwen具身智能

7. AXPO: Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

👍 78 upvotes 📚 cs.AI 📅 2026-05-27

针对 Agent 训练中"思考 vs 工具使用"结构性不对称设计的探索性策略优化

解决什么问题：具有扩展推理的 VLM 在复杂问题上很强，但许多真实问题需要外部工具——内部推理无法解决。Agent 推理因此交织两种行为，且有结构性不对称：思考是低方差的自包含默认行为，工具使用是高方差的辅助行动。朴素 RL 在这种不对称下会让工具维度训练崩溃。
核心方法：AXPO 显式建模这种不对称，对思考分支和工具使用分支分别设计探索-利用平衡策略，让两类行为都能在训练中稳定改进。

为什么值得关注：所有做"Agent + RL + 工具调用"的团队都会遇到这个困境——模型在该用工具的时候放弃工具回到纯思考。AXPO 给出了一个机制级的诊断和解决方案。

HuggingFace arXiv

Agent RL工具使用多模态AXPO

8. Macaron-A2UI: A Model for Generative UI in Personal Agents

👍 77 upvotes 📚 cs.HC 📅 2026-05-24

让个人 Agent 实时合成 UI（控件、选项、状态），从纯文本对话跨入生成式界面

解决什么问题：随着个人 Agent 处理越来越复杂的用户中心任务，静态纯文本对话正在迅速成为瓶颈——很多任务用 UI 控件几秒搞定的事，纯文本要来回多轮才能确认。
核心方法：Macaron-A2UI 提出生成式 UI 模型——在交互上下文中实时合成正确的控件、选项、状态。Agent 不再只输出文字，而是根据任务动态产出可交互界面。

为什么值得关注：这是 Agent UX 的关键跃迁。当 Agent 能根据任务生成专属界面，用户体验上限会拉到与"原生 App"接近的水平，而不是被困在"聊天框"里。对所有做 To-C Agent 产品的团队都是必读。

HuggingFace arXiv

生成式UI个人Agent人机交互Macaron

本周总结

W22 的三条主线叠在一起，呈现了一个比单看任何一条都更清晰的判断：AI 的不同子系统正在同步走完"研究 demo"阶段，集体进入"可仿真、可调度、可部署"的工程化阶段。

世界模型层面，Gamma-World 以 357 票的悬殊优势成为本周最高票，配合 WBench 的统一评测和 TriSplat 的可仿真 3D，三篇组合宣告世界模型正式跨入多 Agent 共享空间 + 可量化评测 + 可送仿真的新阶段。对游戏、自动驾驶、具身训练而言，这意味着"高质量世界基座"开始有了产品化路径，而不再只是论文级 demo。

RL 后训练层面，DVAO、AXPO、Bidirectional Evolutionary Search 三篇组合传达了一个共同判断：RL 算法库正在从"一招通解（PPO/GRPO）"走向"按子问题专项设计（多奖励/工具调用/搜索）"。这与过去几个月"奖励建模结构化升级 + token 级信用分配"的主线一脉相承。可以预期未来 3-6 个月，RLHF/RLVR 的实战工具箱会快速扩充，而不是某种"新一代通用算法"。

Agent 部署层面，AgentDoG 1.5、Qwen-VLA、Macaron-A2UI、LocateAnything 四篇分别覆盖了 Agent 落地的四块拼图：安全（运行时对齐）、跨载体（VLA 统一）、UI 出口（生成式界面）、感知基础（视觉定位提速）。这些工作单独看每篇都很"工程化"，合起来则构成 Agent 产品化必须翻越的山头清单——也是当前学界与工业界共同认可的下一战场。

对于做模型训练、Agent 产品、机器人 AI 或多模态 AIGC 的团队，W22 的信号都很明确："能做出来"的阶段已经过去，"做得稳、做得安全、做得通用、做得有界面"开始成为决定性差异——而本周的高票论文，几乎都站在后者一侧。

想实时追踪每天的 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿，经恩筑AI研究团队审核后发布。热度数据截至 2026-05-31 20:00 CST 抓取，upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv，趋势判断代表团队观点，仅供参考。

Gamma-World / DVAO / AgentDoG — 2026 W22 AI 论文周报（8 篇精选）

本周三个趋势

本周精选论文（8 篇）

1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

2. DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward RL

3. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

4. AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

5. WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

6. Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

7. AXPO: Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

8. Macaron-A2UI: A Model for Generative UI in Personal Agents

本周总结

恩筑AI研究团队（NGJOO AI Lab）

相关阅读

2026 W20-W21 AI 论文半月版：可信文档评测、token 级信用分配与 Agent 基础设施

2026 W18-W19 AI 论文半月版：可部署 VLA、递归多智能体与流式视频生成

每周 AI 论文热点（W17）：多模态生成进入工业部署，隐式推理挑战 CoT

专题：MetaClaw Agent 演化——从工具调用到自主进化的技术路线