本期为 W18 与 W19 合并的半月版,覆盖 2026-04-27 至 2026-05-10 共两个 ISO 周。下一期将恢复每周一期节奏。

本期三个趋势

1. Agent 系统进入"协作与递归"新维度
Agent 研究在过去半月密集出现一批从单 Agent 走向多 Agent 协作的新范式。RecursiveMAS(200↑)把"递归计算"这个本来在单模型潜空间中刷分的 scaling 维度搬到多 Agent 系统——让 Agent 集群在潜空间反复迭代协作,比传统串/并联调度更高效。Eywa(209↑)从另一个角度切入:在科学领域,语言不是唯一接口,让 LLM 与天气、化学、生物等领域基础模型异构协作,是 AI for Science 范式性的突破。ARIS(102↑)用对抗式多 Agent 协作做自主研究,并附完整的工程化 harness。三篇放在一起的信号:"模型规模 + 上下文长度"的 scaling 之外,"Agent 间关系结构"成为新的 scaling 轴
2. 视频生成进入"流式部署 + 几何一致"双向工程化
视频生成模型的研究在过去半月密集解决两个工程化问题:流式实时与几何一致性。Stream-R1(121↑)和 Stream-T1(99↑)分别从蒸馏和测试时缩放两个方向攻流式视频,Stream-R1 用"可靠性-困惑度感知奖励"让蒸馏不再对所有 token 一视同仁,Stream-T1 则首次给流式视频做 test-time scaling,解决候选探索成本爆炸问题。World-R1(112↑)和 UniVidX(80↑)则把几何一致性问题从架构层面拉到对齐层面——World-R1 用 RL 强化 3D 约束,避免改动 backbone,UniVidX 用统一 VDM 先验支持多种像素对齐任务。方向已经清晰:视频生成从"做得出"转向"低延迟、跨视角一致、可工程化部署"
3. VLA 与机器人路线从"能用"转向"可部署"
MolmoAct2(270↑)是本期最高票论文,第一句话就明确:"今天的前沿 VLA 在真实部署需要的指标上都不及格"——闭源模型不可用、开源模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。MolmoAct2 直接对标这四个工业指标,给出开源、低硬件依赖、可微调的可部署 VLA 方案,在 7 个基准上超越 Pi-05。RLDX-1(109↑)从另一个角度补足 VLA 缺失的"运动与长时程"能力——用 MSAT 架构在通用灵巧操作任务上突破。两篇组合传递的判断:VLA 的下一阶段竞争不在 benchmark 数字,而在"能否真正落到生产环境"

本期精选论文(8 篇)

1. MolmoAct2: Action Reasoning Models for Real-world Deployment

👍 270 upvotes 📚 cs.RO 📅 2026-05-04
面向真实部署的开源 VLA,对标延迟、硬件成本、微调成功率三大工业指标
解决什么问题:当前 VLA(视觉-语言-动作)模型存在四个真实部署的"硬伤"——前沿模型闭源、开源 weight 模型绑定昂贵硬件、推理增强策略带来无法接受的延迟、微调成功率达不到部署门槛。
核心方法:MolmoAct2 直接对标这四个工业指标,给出开源、低硬件依赖、可微调的可部署 VLA 方案。在 7 个常用基准上超越 Pi-05,并提供完整复现链路。
为什么值得关注:本期最高票论文。VLA 路线的竞争维度从"通用对话型 demo"转向"低延迟、可部署、可微调"三大工业指标,这是机器人 AI 商业化最重要的方向标。
VLA机器人可部署开源模型MolmoAct

2. Heterogeneous Scientific Foundation Model Collaboration (Eywa)

👍 209 upvotes 📚 cs.AI 📅 2026-04-30
让 LLM 与天气/化学/生物等科学基础模型异构协作,突破语言为唯一接口的限制
解决什么问题:Agentic LLM 系统能力强,但语言作为唯一接口让它在科学领域(气候、化学、生物等)受限——领域基础模型用的不是文本,而是张量、分子图、轨迹等结构化表示。
核心方法:Eywa 提出异构科学基础模型协作框架,让 LLM 与领域模型直接通过结构化中间表示交互,而不是强行通过文本转译。在多个科学任务上展示了协作收益。
为什么值得关注:把 AI Agent 系统从"语言中心"扩展到"多模型异构协作",是 AI for Science 走出"用 LLM 当中间件"困境的关键。对所有做科研 / 工程 AI 的团队都是范式信号。
AI for Science异构协作Agent框架Eywa

3. Recursive Multi-Agent Systems (RecursiveMAS)

👍 200 upvotes 📚 cs.AI 📅 2026-04-28
将"递归计算"这个单模型 scaling 维度扩展到多 Agent 系统
解决什么问题:递归 / 循环语言模型用迭代细化潜空间得到推理深度提升,已被证明是新的 scaling 轴。但这个轴此前只在单模型上验证,多 Agent 系统能否同样在递归维度受益尚未可知。
核心方法:RecursiveMAS 把 Agent 协作建模为可递归过程——多个 Agent 在共享潜状态上反复迭代,深化协作推理。相比传统串/并联调度的多 Agent 框架,递归形式更适合长时程复杂任务。
为什么值得关注:在"模型规模 + 上下文长度"两个 scaling 轴之外,"Agent 协作结构"成为可探索的新维度。RecursiveMAS 是这个方向上第一个系统化框架。
多智能体递归推理潜空间scaling

4. From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill)

👍 151 upvotes 📚 cs.CL 📅 2026-04-30
通过多智能体自博弈,自动发现并提炼上下文中的可复用技能
解决什么问题:很多真实任务需要 LM 在超出参数知识的复杂上下文上做推理。直观方案是"推理时技能增强"——从上下文中抽取规则和流程作为自然语言技能。但人工构造这种技能耗时且难以扩展。
核心方法:Ctx2Skill 通过多 Agent 自博弈,让模型自动从上下文中发现可复用模式并提炼为技能。这些技能在推理时被注入,显著提升 ICL(in-context learning)能力。
为什么值得关注:把"上下文学习"从被动接收升级为"主动提炼可复用技能",是上下文方法论的一次跃迁。对所有依赖长上下文 + 复杂 prompt 的团队都有实际价值。
上下文学习ICL技能提炼多Agent自博弈

5. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

👍 121 upvotes 📚 cs.CV 📅 2026-05-05
让流式视频蒸馏不再对所有 token / frame / pixel 一视同仁
解决什么问题:基于蒸馏的加速(DMD 等)已成为流式自回归视频扩散模型的事实标配,但现有方法把学生网络对老师输出"无差别匹配"——每个 rollout、每帧、每个像素都被视为同等可靠的监督信号。这限制了蒸馏质量上限。
核心方法:Stream-R1 引入"可靠性-困惑度感知"奖励:用困惑度估计监督质量,用 reliability 信号给不同 frame / pixel 加权,让学生有选择地学。
为什么值得关注:流式视频生成是实时直播、互动娱乐的核心基础设施。Stream-R1 解决的是"蒸馏天花板"问题,方法论可推广到其他流式生成场景。
流式视频蒸馏奖励建模DMD

6. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

👍 112 upvotes 📚 cs.CV 📅 2026-04-27
用强化学习对齐 3D 约束,提升视频生成几何一致性,避免改动 backbone
解决什么问题:最近的视频基础模型视觉合成质量很高,但常存在几何不一致问题(同一物体跨帧形状/比例不一致)。已有方法通过架构改动注入 3D 先验,但带来高计算成本,scalability 差。
核心方法:World-R1 把"几何一致性"从架构问题转化为"对齐"问题——通过 RL 让视频生成对齐 3D 约束,不改动 backbone。论文还构建了一套可验证的 3D 一致性奖励。
为什么值得关注:把"几何一致性"从需要改 backbone 的硬约束变成可对齐的软约束,是更可扩展的工程化路线。对所有做视频生成的团队都是直接可借鉴的方法。
视频生成3D一致性强化学习对齐

7. RLDX-1 Technical Report

👍 109 upvotes 📚 cs.RO 📅 2026-05-05
基于 MSAT 架构的通用灵巧操作机器人策略,攻克长时程功能能力
解决什么问题:VLA 模型继承自 VLM 的"广泛场景理解 + 语言条件泛化",但在复杂真实任务上仍弱——尤其是运动感知和长时程一致性。它能"看懂"但不会"持续做对一系列动作"。
核心方法:RLDX-1 提出 MSAT(Motion-Skill Aware Transformer)架构,专门强化运动感知与跨时间动作一致性,并配合 RL 后训练让 VLA 在通用灵巧操作任务上突破。
为什么值得关注:和 MolmoAct2 互补——MolmoAct2 解决"可部署",RLDX-1 解决"运动 + 长时程"。两篇组合给当前 VLA 路线提供了完整的工业化处方。
VLA机器人灵巧操作长时程RLDX

8. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

👍 102 upvotes 📚 cs.AI 📅 2026-05-04
基于对抗式多智能体协作的开源自主研究框架,含 harness 与早期部署经验
解决什么问题:构建在 LLM 之上的 Agent 系统性能既依赖模型权重,也依赖外围 harness——后者控制要存什么、要取什么、要呈现什么。长时程自主研究中,harness 设计往往决定成败。
核心方法:ARIS(Auto-Research-in-sleep)是一个开源自主研究 harness。架构上用对抗式多 Agent 协作(一个 Agent 提出假设,另一个 Agent 找反例 / 漏洞),并提供完整保证机制和实测数据。
为什么值得关注:把"自动 AI 研究员"从单模型概念走到"多 Agent 对抗 + 工程化 harness"的可复现系统。ARIS 公开了 harness 设计原则,对所有做 Agent 产品的团队都有借鉴价值。
自主研究多Agent对抗协作Agent harnessARIS

本期总结

W18-W19 这两周的论文集中传递了一个清晰信号:"能跑通的研究"和"能部署的系统"开始在很多方向上正式分叉,而本期高票论文几乎都站在后者一侧。

VLA / 机器人层面,MolmoAct2 用第一句话直接给整个 VLA 路线划了一条工业部署门槛——延迟、硬件成本、微调成功率三个指标缺一不可。RLDX-1 则补足运动与长时程一致性,两篇组合相当于给当下 VLA 路线开了一份"合格生产模型应该长什么样"的处方。可以预期未来 6-12 个月内,"benchmark 数字漂亮"会迅速贬值,"能落到流水线 / 家庭场景"成为新的卷点。

Agent 协作层面,RecursiveMAS、Eywa、ARIS 三篇组合呈现 Agent 系统的三种结构性突破方向:递归(深度协作)、异构(跨模型类型协作)、对抗(自检自纠协作)。这是过去几年"Agent + tool use"主流路线之外的新维度,并且都伴随了可复现的工程化 harness——意味着这条路线可以从研究直接进入产品工程。Ctx2Skill 则在上下文学习维度提供了与 Agent 协作互补的能力——让单 Agent 也能"学到上下文里的技能"。

视频生成层面,Stream-R1、World-R1、UniVidX 等论文共同把视频生成研究推到"低延迟流式 + 几何一致"双重工程化阶段。值得注意的是,三篇论文都没有继续走"模型变大、训练数据变多"的传统 scaling 路线,而是把核心问题转化为奖励 / 对齐 / 蒸馏问题——这与同期 LLM 后训练的趋势完全一致。

对于做模型训练、Agent 系统或视频生成的团队,W18-W19 的判断都足够明确:过去 6 个月堆参数堆数据的红利正在消退,下一阶段的真正赛点是"对齐、协作、工程化部署"这三个不性感但决定落地的能力

想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-05-11 20:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。本期为 W18 与 W19 合并的半月版,下一期恢复每周节奏。