本周三个趋势

1. 视频与 3D 生成从"画面"迈向"可探索世界"
Seedance 2.0(136↑)是 W16 最热论文,首次将文本、图像、音频、视频四种模态统一在一个生成框架中,从"视频生成"升级到"原生多模态音视频联合生成"。HY-World 2.0(78↑)和 Lyra 2.0(32↑)则把镜头转向 3D——前者支持文本、单视图、多视图、视频四种输入生成可导航的 3DGS 场景,后者用几何引导加自增强历史训练实现大规模可探索 3D 世界。OmniShow(69↑)在人-物交互视频生成上统一了文本、参考图、音频、姿态四种条件。四篇放在一起,信号非常清晰:生成模型的目标正在从"输出合理画面"转向"输出可用于下游具身/交互的世界状态"
2. RL 奖励设计成为突破推理瓶颈的核心杠杆
当"更大的模型 + 结果奖励"已经在 RL 上走到瓶颈时,本周三篇高票论文不约而同指向了奖励信号本身。MEDS(135↑)观察到 RLHF 训练后期模型常常反复产生同类错误,通过历史 rollout 的记忆模块动态降低"已见过的失败模式"的奖励,显式抑制采样坍缩。RationalRewards(99↑)让奖励模型先给出多维度推理再打分,训练和测试两个阶段都能给生成器提供结构化信号。KnowRL(96↑)则反向思考:与其在 prompt 里堆更多 hint,不如抽取"最小充分知识点"稀疏引导 RLVR,同样的算力下小模型推理能力显著上涨。三篇论文共同指向同一个判断:奖励建模从"打分函数"升级为"可学习、可解释、有记忆的优化协议"
3. Agent 系统进入"评测/追踪/长时程"工程化阶段
Agent 研究在 W16 全面从"能不能做一件事"转向"能不能被科学评测和工程化运行"。OccuBench(58↑)把评测从 Web 任务扩展到 100 个真实职业场景(急诊分诊、核电厂监控、海关报关),跨越 10 大行业。CocoaBench(33↑)专门评测"统一数字 Agent"组合多种能力处理真实业务的水平。CodeTracer(38↑)切入运行时——让 Code Agent 的每次状态转移可追踪、错误链可定位,补上 Agent 可观测性的长期缺失。AiScientist(31↑)则把边界推向长时程:在"数小时到数天"的时间尺度上自主完成 ML 研究任务。结论:Agent 研究正从"Demo 能力"走向"可度量、可运维、能持续运行"的系统工程

本周精选论文(8 篇)

1. Seedance 2.0: Advancing Video Generation for World Complexity

👍 136 upvotes 📚 cs.CV 📅 2026-04-15
原生多模态音视频生成模型,统一四种输入模态
解决什么问题:以往视频生成模型主要关注视觉,音频和其他模态往往作为后处理或独立子模型,模态之间语义不一致。
核心方法:采用统一的高效大规模架构进行多模态音视频联合生成,原生支持文本、图像、音频、视频四种输入模态,实现画面、声音、语义在时间轴上的对齐。
为什么值得关注:W16 最高票论文。这是视频生成从"把画面做对"到"把世界做对"的一次标志性跃迁——音画一体之后,下游应用(播客、互动内容、世界模拟)的门槛显著降低。
视频生成多模态音视频联合Seedance字节

2. The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping (MEDS)

👍 135 upvotes 📚 cs.LG 📅 2026-04-13
历史行为记忆动态塑造奖励,缓解 RLHF 采样多样性坍缩
解决什么问题:LLM 的 RL 训练存在"采样多样性减弱"失败模式——模型反复产出相同错误。传统熵正则只鼓励当前策略下的随机性,但不显式抑制跨 rollout 的重复错误模式。
核心方法:MEDS(Memory-Enhanced Dynamic reward Shaping)维护一个历史失败模式的记忆模块,训练时动态降低已见过错误模式的奖励,推动模型在失败空间中探索新的可能性。
为什么值得关注:几乎所有做 RLHF/RLVR 的团队都遇到过"模型越训越同质化"的问题。MEDS 是第一个把这个问题拆成"跨 rollout 记忆"来解决的工作,方法简洁、可直接叠加到现有 RL 管线。
强化学习奖励塑造RLHF采样多样性记忆增强

3. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

👍 99 upvotes 📚 cs.CV 📅 2026-04-13
让奖励模型先推理再打分,训练与测试时双重增益视觉生成
解决什么问题:视觉生成的奖励模型通常把丰富的人类判断压缩为一个无解释的分数,抛弃了判断背后的推理过程。
核心方法:训练奖励模型先产出多维度、显式的批评(critique),再给出分数。训练阶段提供结构化信号指导生成器改进;测试阶段则可以直接用 critique 指导 best-of-N 选择,两端都受益。
为什么值得关注:把"奖励模型"从被动评分者变成主动优化工具是方法论级的创新。对于所有依赖 human preference 的领域(图像、视频、Agent 决策),这套框架都有复用价值。
奖励建模视觉生成推理奖励test-time scaling

4. KnowRL: Boosting LLM Reasoning via RL with Minimal-Sufficient Knowledge Guidance

👍 96 upvotes 📚 cs.CL 📅 2026-04-14
用最小充分知识点稀疏引导 RL,提升小模型推理能力
解决什么问题:RLVR 在困难题目上存在严重奖励稀疏问题。Hint-based 方法通过注入部分解或模板来缓解,但通常靠"加更多 token"扩展引导量,带来冗余、不一致和额外训练开销。
核心方法:KnowRL 从题目中抽取"最小充分知识点"(minimal-sufficient knowledge),以稀疏形式引导 RLVR,让模型在接收最少必要信号的前提下学会真正的推理路径。
为什么值得关注:对小模型团队特别重要——在 7B/14B 规模上,RLVR 的硬题奖励稀疏几乎是最大的瓶颈。KnowRL 提供了一个"信息密度而不是信息量"的新方向。
强化学习RLVR推理知识引导小模型

5. HY-World 2.0: Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

👍 78 upvotes 📚 cs.CV 📅 2026-04-15
多模态世界模型,支持文本/图像/多视图/视频生成可导航 3DGS 场景
解决什么问题:世界模型研究长期在 2D 视频与 3D 场景之间割裂——视频生成关注时间一致性,3D 重建关注几何保真,两者难以统一。
核心方法:HY-World 2.0 在单一框架中接收文本、单视图图像、多视图图像、视频四种输入,输出高保真可导航的 3DGS(3D Gaussian Splatting)场景,同时支持世界生成与世界重建两个任务。
为什么值得关注:腾讯延续 HY-World 1.0 的路线推出 2.0,把"世界模型"从论文概念往实用 3DGS 工具链推进了一步——对游戏、具身仿真、XR 内容生产都是直接可用的基础设施。
世界模型3DGS多模态3D生成腾讯

6. Rethinking On-Policy Distillation of LLMs: Phenomenology, Mechanism, and Recipe

👍 77 upvotes 📚 cs.CL 📅 2026-04-14
系统揭示在线策略蒸馏的成功条件与 token 级失败机制
解决什么问题:在线策略蒸馏(On-Policy Distillation)已成为 LLM 后训练的核心技术,但训练动力学长期是黑箱——什么时候成功、什么时候失败、为什么失败,都缺乏机制性解释。
核心方法:系统实验归纳出两个关键条件:(1)学生和老师必须共享可兼容的思考模式;(2)即使模式兼容,token 级的梯度行为仍决定最终收敛性。进一步给出可操作的配方(recipe)指导实践者在何种配置下选择 OPD。
为什么值得关注:这是少有的"机制研究 + 可复用配方"兼顾的论文。对做后训练的团队来说,避免了"换个老师就训不动"的试错成本。
在线策略蒸馏后训练机制研究LLM

7. OccuBench: Evaluating AI Agents on Real-World Professional Tasks

👍 58 upvotes 📚 cs.AI 📅 2026-04-13
覆盖 100 个真实职业、10 大行业的 Agent 评测基准
解决什么问题:Agent 号称能做"几百种职业的工作",但现有基准几乎都集中在 Web 操作、代码、工具调用等少数可公开模拟的领域。
核心方法:OccuBench 通过语言环境模拟构建 100 个真实职业场景,涵盖急诊分诊、核电厂安全监控、海关报关等 10 大行业,评测 Agent 在真实工作流下的可用性与风险边界。
为什么值得关注:Agent 商业化最大的障碍是"离真实工作有多远"。OccuBench 把评测的底板从 Web 世界扩展到真实行业,为 Agent 产品化提供了第一把可信的尺子。
Agent评测职业场景真实世界基准

8. Toward Autonomous Long-Horizon Engineering for ML Research (AiScientist)

👍 31 upvotes 📚 cs.AI 📅 2026-04-14
跨数小时到数天的自主 ML 研究工程系统
解决什么问题:自主 AI 研究快速推进,但长时程 ML 研究工程仍困难——Agent 需要在任务理解、环境搭建、实现、实验、调试上保持连贯数小时到数天。
核心方法:AiScientist 基于"强长时程表现来自更简单的原则",构建了一个能持续数日推进的 ML 研究系统,支持端到端任务接管:从读懂需求、搭环境、写代码、跑实验、调 bug 到复盘。
为什么值得关注:把 Agent 从"几分钟任务"推到"几天任务",意味着需要解决大量工程化问题——状态持久化、错误恢复、资源管理。AiScientist 的系统设计值得所有做 Agent 产品的团队细读。
长时程AgentML研究自动化Agent工程AiScientist

本周总结

W16 的三条主线呈现了 AI 技术栈不同层面的同步跃迁。生成模型层面,Seedance 2.0、HY-World 2.0、Lyra 2.0、OmniShow 共同把目标从"更漂亮的画面"升级到"可用的世界状态"——音画同步、多视图一致、可导航 3D、可交互人物,四个方向的论文指向同一个趋势:生成模型正在从"创作工具"演变为"世界仿真器"。

训练方法层面,当模型规模增大带来的收益递减时,MEDS、RationalRewards、KnowRL 三篇高票论文不约而同把突破口放在"奖励信号"本身。从"记忆增强的动态奖励"到"可推理的奖励模型"再到"最小充分知识点稀疏引导",奖励建模正在经历与主模型相似的结构化升级,这将是未来 6-12 个月 RL 方向的主要战场。OPD 的机制研究则为"蒸馏到底什么时候起作用"提供了第一份可操作手册。

Agent 系统层面,OccuBench、CocoaBench、CodeTracer、AiScientist 合起来宣告 Agent 研究正式走完"Demo 期",进入"工程化期"——既要能被行业级评测(OccuBench)、又要支持统一能力组合(CocoaBench)、还要具备运行时可观测性(CodeTracer)和长时程持续推进能力(AiScientist)。这些看似独立的工作实际是同一个转型的四个面:Agent 能不能用不再取决于最亮眼的演示,而取决于评测、追踪、长运行这些工程约束

对于做模型训练、Agent 产品或 3D/视频生成的团队,W16 的信号都足够明确:把"能做"和"能稳定地做、可度量地做、能做完整个流程"分开来看,后者已经是学界和工业界同步发力的重点。

想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-04-19 16:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。