MolmoAct2 / RecursiveMAS / Stream-R1 — 2026 W18-W19 AI 论文半月版（8 篇精选）

本期为 W18 与 W19 合并的半月版，覆盖 2026-04-27 至 2026-05-10 共两个 ISO 周。下一期将恢复每周一期节奏。

本期三个趋势

1. Agent 系统进入"协作与递归"新维度
Agent 研究在过去半月密集出现一批从单 Agent 走向多 Agent 协作的新范式。RecursiveMAS（200↑）把"递归计算"这个本来在单模型潜空间中刷分的 scaling 维度搬到多 Agent 系统——让 Agent 集群在潜空间反复迭代协作，比传统串/并联调度更高效。Eywa（209↑）从另一个角度切入：在科学领域，语言不是唯一接口，让 LLM 与天气、化学、生物等领域基础模型异构协作，是 AI for Science 范式性的突破。ARIS（102↑）用对抗式多 Agent 协作做自主研究，并附完整的工程化 harness。三篇放在一起的信号："模型规模 + 上下文长度"的 scaling 之外，"Agent 间关系结构"成为新的 scaling 轴。

2. 视频生成进入"流式部署 + 几何一致"双向工程化
视频生成模型的研究在过去半月密集解决两个工程化问题：流式实时与几何一致性。Stream-R1（121↑）和 Stream-T1（99↑）分别从蒸馏和测试时缩放两个方向攻流式视频，Stream-R1 用"可靠性-困惑度感知奖励"让蒸馏不再对所有 token 一视同仁，Stream-T1 则首次给流式视频做 test-time scaling，解决候选探索成本爆炸问题。World-R1（112↑）和 UniVidX（80↑）则把几何一致性问题从架构层面拉到对齐层面——World-R1 用 RL 强化 3D 约束，避免改动 backbone，UniVidX 用统一 VDM 先验支持多种像素对齐任务。方向已经清晰：视频生成从"做得出"转向"低延迟、跨视角一致、可工程化部署"。

3. VLA 与机器人路线从"能用"转向"可部署"
MolmoAct2（270↑）是本期最高票论文，第一句话就明确："今天的前沿 VLA 在真实部署需要的指标上都不及格"——闭源模型不可用、开源模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。MolmoAct2 直接对标这四个工业指标，给出开源、低硬件依赖、可微调的可部署 VLA 方案，在 7 个基准上超越 Pi-05。RLDX-1（109↑）从另一个角度补足 VLA 缺失的"运动与长时程"能力——用 MSAT 架构在通用灵巧操作任务上突破。两篇组合传递的判断：VLA 的下一阶段竞争不在 benchmark 数字，而在"能否真正落到生产环境"。

本期精选论文（8 篇）

1. MolmoAct2: Action Reasoning Models for Real-world Deployment

👍 270 upvotes 📚 cs.RO 📅 2026-05-04

面向真实部署的开源 VLA，对标延迟、硬件成本、微调成功率三大工业指标

解决什么问题：当前 VLA（视觉-语言-动作）模型存在四个真实部署的"硬伤"——前沿模型闭源、开源 weight 模型绑定昂贵硬件、推理增强策略带来无法接受的延迟、微调成功率达不到部署门槛。
核心方法：MolmoAct2 直接对标这四个工业指标，给出开源、低硬件依赖、可微调的可部署 VLA 方案。在 7 个常用基准上超越 Pi-05，并提供完整复现链路。

为什么值得关注：本期最高票论文。VLA 路线的竞争维度从"通用对话型 demo"转向"低延迟、可部署、可微调"三大工业指标，这是机器人 AI 商业化最重要的方向标。

HuggingFace arXiv

VLA机器人可部署开源模型MolmoAct

2. Heterogeneous Scientific Foundation Model Collaboration (Eywa)

👍 209 upvotes 📚 cs.AI 📅 2026-04-30

让 LLM 与天气/化学/生物等科学基础模型异构协作，突破语言为唯一接口的限制

解决什么问题：Agentic LLM 系统能力强，但语言作为唯一接口让它在科学领域（气候、化学、生物等）受限——领域基础模型用的不是文本，而是张量、分子图、轨迹等结构化表示。
核心方法：Eywa 提出异构科学基础模型协作框架，让 LLM 与领域模型直接通过结构化中间表示交互，而不是强行通过文本转译。在多个科学任务上展示了协作收益。

为什么值得关注：把 AI Agent 系统从"语言中心"扩展到"多模型异构协作"，是 AI for Science 走出"用 LLM 当中间件"困境的关键。对所有做科研 / 工程 AI 的团队都是范式信号。

HuggingFace arXiv

AI for Science异构协作Agent框架Eywa

3. Recursive Multi-Agent Systems (RecursiveMAS)

👍 200 upvotes 📚 cs.AI 📅 2026-04-28

将"递归计算"这个单模型 scaling 维度扩展到多 Agent 系统

解决什么问题：递归 / 循环语言模型用迭代细化潜空间得到推理深度提升，已被证明是新的 scaling 轴。但这个轴此前只在单模型上验证，多 Agent 系统能否同样在递归维度受益尚未可知。
核心方法：RecursiveMAS 把 Agent 协作建模为可递归过程——多个 Agent 在共享潜状态上反复迭代，深化协作推理。相比传统串/并联调度的多 Agent 框架，递归形式更适合长时程复杂任务。

为什么值得关注：在"模型规模 + 上下文长度"两个 scaling 轴之外，"Agent 协作结构"成为可探索的新维度。RecursiveMAS 是这个方向上第一个系统化框架。

HuggingFace arXiv

多智能体递归推理潜空间scaling

4. From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)

👍 151 upvotes 📚 cs.CL 📅 2026-04-30

通过多智能体自博弈，自动发现并提炼上下文中的可复用技能

解决什么问题：很多真实任务需要 LM 在超出参数知识的复杂上下文上做推理。直观方案是"推理时技能增强"——从上下文中抽取规则和流程作为自然语言技能。但人工构造这种技能耗时且难以扩展。
核心方法：Ctx2Skill 通过多 Agent 自博弈，让模型自动从上下文中发现可复用模式并提炼为技能。这些技能在推理时被注入，显著提升 ICL（in-context learning）能力。

为什么值得关注：把"上下文学习"从被动接收升级为"主动提炼可复用技能"，是上下文方法论的一次跃迁。对所有依赖长上下文 + 复杂 prompt 的团队都有实际价值。

HuggingFace arXiv

上下文学习ICL技能提炼多Agent自博弈

5. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

👍 121 upvotes 📚 cs.CV 📅 2026-05-05

让流式视频蒸馏不再对所有 token / frame / pixel 一视同仁

解决什么问题：基于蒸馏的加速（DMD 等）已成为流式自回归视频扩散模型的事实标配，但现有方法把学生网络对老师输出"无差别匹配"——每个 rollout、每帧、每个像素都被视为同等可靠的监督信号。这限制了蒸馏质量上限。
核心方法：Stream-R1 引入"可靠性-困惑度感知"奖励：用困惑度估计监督质量，用 reliability 信号给不同 frame / pixel 加权，让学生有选择地学。

为什么值得关注：流式视频生成是实时直播、互动娱乐的核心基础设施。Stream-R1 解决的是"蒸馏天花板"问题，方法论可推广到其他流式生成场景。

HuggingFace arXiv

流式视频蒸馏奖励建模DMD

6. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

👍 112 upvotes 📚 cs.CV 📅 2026-04-27

用强化学习对齐 3D 约束，提升视频生成几何一致性，避免改动 backbone

解决什么问题：最近的视频基础模型视觉合成质量很高，但常存在几何不一致问题（同一物体跨帧形状/比例不一致）。已有方法通过架构改动注入 3D 先验，但带来高计算成本，scalability 差。
核心方法：World-R1 把"几何一致性"从架构问题转化为"对齐"问题——通过 RL 让视频生成对齐 3D 约束，不改动 backbone。论文还构建了一套可验证的 3D 一致性奖励。

为什么值得关注：把"几何一致性"从需要改 backbone 的硬约束变成可对齐的软约束，是更可扩展的工程化路线。对所有做视频生成的团队都是直接可借鉴的方法。

HuggingFace arXiv

视频生成3D一致性强化学习对齐

7. RLDX-1 Technical Report

👍 109 upvotes 📚 cs.RO 📅 2026-05-05

基于 MSAT 架构的通用灵巧操作机器人策略，攻克长时程功能能力

解决什么问题：VLA 模型继承自 VLM 的"广泛场景理解 + 语言条件泛化"，但在复杂真实任务上仍弱——尤其是运动感知和长时程一致性。它能"看懂"但不会"持续做对一系列动作"。
核心方法：RLDX-1 提出 MSAT（Motion-Skill Aware Transformer）架构，专门强化运动感知与跨时间动作一致性，并配合 RL 后训练让 VLA 在通用灵巧操作任务上突破。

为什么值得关注：和 MolmoAct2 互补——MolmoAct2 解决"可部署"，RLDX-1 解决"运动 + 长时程"。两篇组合给当前 VLA 路线提供了完整的工业化处方。

HuggingFace arXiv

VLA机器人灵巧操作长时程RLDX

8. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

👍 102 upvotes 📚 cs.AI 📅 2026-05-04

基于对抗式多智能体协作的开源自主研究框架，含 harness 与早期部署经验

解决什么问题：构建在 LLM 之上的 Agent 系统性能既依赖模型权重，也依赖外围 harness——后者控制要存什么、要取什么、要呈现什么。长时程自主研究中，harness 设计往往决定成败。
核心方法：ARIS（Auto-Research-in-sleep）是一个开源自主研究 harness。架构上用对抗式多 Agent 协作（一个 Agent 提出假设，另一个 Agent 找反例 / 漏洞），并提供完整保证机制和实测数据。

为什么值得关注：把"自动 AI 研究员"从单模型概念走到"多 Agent 对抗 + 工程化 harness"的可复现系统。ARIS 公开了 harness 设计原则，对所有做 Agent 产品的团队都有借鉴价值。

HuggingFace arXiv

自主研究多Agent对抗协作Agent harnessARIS

本期总结

W18-W19 这两周的论文集中传递了一个清晰信号："能跑通的研究"和"能部署的系统"开始在很多方向上正式分叉，而本期高票论文几乎都站在后者一侧。

VLA / 机器人层面，MolmoAct2 用第一句话直接给整个 VLA 路线划了一条工业部署门槛——延迟、硬件成本、微调成功率三个指标缺一不可。RLDX-1 则补足运动与长时程一致性，两篇组合相当于给当下 VLA 路线开了一份"合格生产模型应该长什么样"的处方。可以预期未来 6-12 个月内，"benchmark 数字漂亮"会迅速贬值，"能落到流水线 / 家庭场景"成为新的卷点。

Agent 协作层面，RecursiveMAS、Eywa、ARIS 三篇组合呈现 Agent 系统的三种结构性突破方向：递归（深度协作）、异构（跨模型类型协作）、对抗（自检自纠协作）。这是过去几年"Agent + tool use"主流路线之外的新维度，并且都伴随了可复现的工程化 harness——意味着这条路线可以从研究直接进入产品工程。Ctx2Skill 则在上下文学习维度提供了与 Agent 协作互补的能力——让单 Agent 也能"学到上下文里的技能"。

视频生成层面，Stream-R1、World-R1、UniVidX 等论文共同把视频生成研究推到"低延迟流式 + 几何一致"双重工程化阶段。值得注意的是，三篇论文都没有继续走"模型变大、训练数据变多"的传统 scaling 路线，而是把核心问题转化为奖励 / 对齐 / 蒸馏问题——这与同期 LLM 后训练的趋势完全一致。

对于做模型训练、Agent 系统或视频生成的团队，W18-W19 的判断都足够明确：过去 6 个月堆参数堆数据的红利正在消退，下一阶段的真正赛点是"对齐、协作、工程化部署"这三个不性感但决定落地的能力。

想实时追踪每天的 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿，经恩筑AI研究团队审核后发布。热度数据截至 2026-05-11 20:00 CST 抓取，upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv，趋势判断代表团队观点，仅供参考。本期为 W18 与 W19 合并的半月版，下一期恢复每周节奏。

MolmoAct2 / RecursiveMAS / Stream-R1 — 2026 W18-W19 AI 论文半月版（8 篇精选）

本期三个趋势

本期精选论文（8 篇）

1. MolmoAct2: Action Reasoning Models for Real-world Deployment

2. Heterogeneous Scientific Foundation Model Collaboration (Eywa)

3. Recursive Multi-Agent Systems (RecursiveMAS)

4. From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)

5. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

6. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

7. RLDX-1 Technical Report

8. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

本期总结

恩筑AI研究团队（NGJOO AI Lab）

相关阅读

每周 AI 论文热点（W17）：多模态生成进入工业部署，隐式推理挑战 CoT

每周 AI 论文热点（W16）：视频生成迈向可探索世界，奖励设计成推理突破杠杆

每周 AI 论文热点（W15）：Agent 评测体系成型，视觉生成迈向过程可控

专题：MetaClaw Agent 演化——从工具调用到自主进化的技术路线