本期为 W18 与 W19 合并的半月版,覆盖 2026-04-27 至 2026-05-10 共两个 ISO 周。下一期将恢复每周一期节奏。
本期三个趋势
Agent 研究在过去半月密集出现一批从单 Agent 走向多 Agent 协作的新范式。RecursiveMAS(200↑)把"递归计算"这个本来在单模型潜空间中刷分的 scaling 维度搬到多 Agent 系统——让 Agent 集群在潜空间反复迭代协作,比传统串/并联调度更高效。Eywa(209↑)从另一个角度切入:在科学领域,语言不是唯一接口,让 LLM 与天气、化学、生物等领域基础模型异构协作,是 AI for Science 范式性的突破。ARIS(102↑)用对抗式多 Agent 协作做自主研究,并附完整的工程化 harness。三篇放在一起的信号:"模型规模 + 上下文长度"的 scaling 之外,"Agent 间关系结构"成为新的 scaling 轴。
视频生成模型的研究在过去半月密集解决两个工程化问题:流式实时与几何一致性。Stream-R1(121↑)和 Stream-T1(99↑)分别从蒸馏和测试时缩放两个方向攻流式视频,Stream-R1 用"可靠性-困惑度感知奖励"让蒸馏不再对所有 token 一视同仁,Stream-T1 则首次给流式视频做 test-time scaling,解决候选探索成本爆炸问题。World-R1(112↑)和 UniVidX(80↑)则把几何一致性问题从架构层面拉到对齐层面——World-R1 用 RL 强化 3D 约束,避免改动 backbone,UniVidX 用统一 VDM 先验支持多种像素对齐任务。方向已经清晰:视频生成从"做得出"转向"低延迟、跨视角一致、可工程化部署"。
MolmoAct2(270↑)是本期最高票论文,第一句话就明确:"今天的前沿 VLA 在真实部署需要的指标上都不及格"——闭源模型不可用、开源模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。MolmoAct2 直接对标这四个工业指标,给出开源、低硬件依赖、可微调的可部署 VLA 方案,在 7 个基准上超越 Pi-05。RLDX-1(109↑)从另一个角度补足 VLA 缺失的"运动与长时程"能力——用 MSAT 架构在通用灵巧操作任务上突破。两篇组合传递的判断:VLA 的下一阶段竞争不在 benchmark 数字,而在"能否真正落到生产环境"。
本期精选论文(8 篇)
1. MolmoAct2: Action Reasoning Models for Real-world Deployment
核心方法:MolmoAct2 直接对标这四个工业指标,给出开源、低硬件依赖、可微调的可部署 VLA 方案。在 7 个常用基准上超越 Pi-05,并提供完整复现链路。
2. Heterogeneous Scientific Foundation Model Collaboration (Eywa)
核心方法:Eywa 提出异构科学基础模型协作框架,让 LLM 与领域模型直接通过结构化中间表示交互,而不是强行通过文本转译。在多个科学任务上展示了协作收益。
3. Recursive Multi-Agent Systems (RecursiveMAS)
核心方法:RecursiveMAS 把 Agent 协作建模为可递归过程——多个 Agent 在共享潜状态上反复迭代,深化协作推理。相比传统串/并联调度的多 Agent 框架,递归形式更适合长时程复杂任务。
4. From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)
核心方法:Ctx2Skill 通过多 Agent 自博弈,让模型自动从上下文中发现可复用模式并提炼为技能。这些技能在推理时被注入,显著提升 ICL(in-context learning)能力。
5. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
核心方法:Stream-R1 引入"可靠性-困惑度感知"奖励:用困惑度估计监督质量,用 reliability 信号给不同 frame / pixel 加权,让学生有选择地学。
6. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
核心方法:World-R1 把"几何一致性"从架构问题转化为"对齐"问题——通过 RL 让视频生成对齐 3D 约束,不改动 backbone。论文还构建了一套可验证的 3D 一致性奖励。
7. RLDX-1 Technical Report
核心方法:RLDX-1 提出 MSAT(Motion-Skill Aware Transformer)架构,专门强化运动感知与跨时间动作一致性,并配合 RL 后训练让 VLA 在通用灵巧操作任务上突破。
8. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
核心方法:ARIS(Auto-Research-in-sleep)是一个开源自主研究 harness。架构上用对抗式多 Agent 协作(一个 Agent 提出假设,另一个 Agent 找反例 / 漏洞),并提供完整保证机制和实测数据。
本期总结
W18-W19 这两周的论文集中传递了一个清晰信号:"能跑通的研究"和"能部署的系统"开始在很多方向上正式分叉,而本期高票论文几乎都站在后者一侧。
VLA / 机器人层面,MolmoAct2 用第一句话直接给整个 VLA 路线划了一条工业部署门槛——延迟、硬件成本、微调成功率三个指标缺一不可。RLDX-1 则补足运动与长时程一致性,两篇组合相当于给当下 VLA 路线开了一份"合格生产模型应该长什么样"的处方。可以预期未来 6-12 个月内,"benchmark 数字漂亮"会迅速贬值,"能落到流水线 / 家庭场景"成为新的卷点。
Agent 协作层面,RecursiveMAS、Eywa、ARIS 三篇组合呈现 Agent 系统的三种结构性突破方向:递归(深度协作)、异构(跨模型类型协作)、对抗(自检自纠协作)。这是过去几年"Agent + tool use"主流路线之外的新维度,并且都伴随了可复现的工程化 harness——意味着这条路线可以从研究直接进入产品工程。Ctx2Skill 则在上下文学习维度提供了与 Agent 协作互补的能力——让单 Agent 也能"学到上下文里的技能"。
视频生成层面,Stream-R1、World-R1、UniVidX 等论文共同把视频生成研究推到"低延迟流式 + 几何一致"双重工程化阶段。值得注意的是,三篇论文都没有继续走"模型变大、训练数据变多"的传统 scaling 路线,而是把核心问题转化为奖励 / 对齐 / 蒸馏问题——这与同期 LLM 后训练的趋势完全一致。
对于做模型训练、Agent 系统或视频生成的团队,W18-W19 的判断都足够明确:过去 6 个月堆参数堆数据的红利正在消退,下一阶段的真正赛点是"对齐、协作、工程化部署"这三个不性感但决定落地的能力。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-05-11 20:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。本期为 W18 与 W19 合并的半月版,下一期恢复每周节奏。