本周三个趋势
Seedance 2.0(136↑)是 W16 最热论文,首次将文本、图像、音频、视频四种模态统一在一个生成框架中,从"视频生成"升级到"原生多模态音视频联合生成"。HY-World 2.0(78↑)和 Lyra 2.0(32↑)则把镜头转向 3D——前者支持文本、单视图、多视图、视频四种输入生成可导航的 3DGS 场景,后者用几何引导加自增强历史训练实现大规模可探索 3D 世界。OmniShow(69↑)在人-物交互视频生成上统一了文本、参考图、音频、姿态四种条件。四篇放在一起,信号非常清晰:生成模型的目标正在从"输出合理画面"转向"输出可用于下游具身/交互的世界状态"。
当"更大的模型 + 结果奖励"已经在 RL 上走到瓶颈时,本周三篇高票论文不约而同指向了奖励信号本身。MEDS(135↑)观察到 RLHF 训练后期模型常常反复产生同类错误,通过历史 rollout 的记忆模块动态降低"已见过的失败模式"的奖励,显式抑制采样坍缩。RationalRewards(99↑)让奖励模型先给出多维度推理再打分,训练和测试两个阶段都能给生成器提供结构化信号。KnowRL(96↑)则反向思考:与其在 prompt 里堆更多 hint,不如抽取"最小充分知识点"稀疏引导 RLVR,同样的算力下小模型推理能力显著上涨。三篇论文共同指向同一个判断:奖励建模从"打分函数"升级为"可学习、可解释、有记忆的优化协议"。
Agent 研究在 W16 全面从"能不能做一件事"转向"能不能被科学评测和工程化运行"。OccuBench(58↑)把评测从 Web 任务扩展到 100 个真实职业场景(急诊分诊、核电厂监控、海关报关),跨越 10 大行业。CocoaBench(33↑)专门评测"统一数字 Agent"组合多种能力处理真实业务的水平。CodeTracer(38↑)切入运行时——让 Code Agent 的每次状态转移可追踪、错误链可定位,补上 Agent 可观测性的长期缺失。AiScientist(31↑)则把边界推向长时程:在"数小时到数天"的时间尺度上自主完成 ML 研究任务。结论:Agent 研究正从"Demo 能力"走向"可度量、可运维、能持续运行"的系统工程。
本周精选论文(8 篇)
1. Seedance 2.0: Advancing Video Generation for World Complexity
核心方法:采用统一的高效大规模架构进行多模态音视频联合生成,原生支持文本、图像、音频、视频四种输入模态,实现画面、声音、语义在时间轴上的对齐。
2. The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping (MEDS)
核心方法:MEDS(Memory-Enhanced Dynamic reward Shaping)维护一个历史失败模式的记忆模块,训练时动态降低已见过错误模式的奖励,推动模型在失败空间中探索新的可能性。
3. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
核心方法:训练奖励模型先产出多维度、显式的批评(critique),再给出分数。训练阶段提供结构化信号指导生成器改进;测试阶段则可以直接用 critique 指导 best-of-N 选择,两端都受益。
4. KnowRL: Boosting LLM Reasoning via RL with Minimal-Sufficient Knowledge Guidance
核心方法:KnowRL 从题目中抽取"最小充分知识点"(minimal-sufficient knowledge),以稀疏形式引导 RLVR,让模型在接收最少必要信号的前提下学会真正的推理路径。
5. HY-World 2.0: Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
核心方法:HY-World 2.0 在单一框架中接收文本、单视图图像、多视图图像、视频四种输入,输出高保真可导航的 3DGS(3D Gaussian Splatting)场景,同时支持世界生成与世界重建两个任务。
6. Rethinking On-Policy Distillation of LLMs: Phenomenology, Mechanism, and Recipe
核心方法:系统实验归纳出两个关键条件:(1)学生和老师必须共享可兼容的思考模式;(2)即使模式兼容,token 级的梯度行为仍决定最终收敛性。进一步给出可操作的配方(recipe)指导实践者在何种配置下选择 OPD。
7. OccuBench: Evaluating AI Agents on Real-World Professional Tasks
核心方法:OccuBench 通过语言环境模拟构建 100 个真实职业场景,涵盖急诊分诊、核电厂安全监控、海关报关等 10 大行业,评测 Agent 在真实工作流下的可用性与风险边界。
8. Toward Autonomous Long-Horizon Engineering for ML Research (AiScientist)
核心方法:AiScientist 基于"强长时程表现来自更简单的原则",构建了一个能持续数日推进的 ML 研究系统,支持端到端任务接管:从读懂需求、搭环境、写代码、跑实验、调 bug 到复盘。
本周总结
W16 的三条主线呈现了 AI 技术栈不同层面的同步跃迁。生成模型层面,Seedance 2.0、HY-World 2.0、Lyra 2.0、OmniShow 共同把目标从"更漂亮的画面"升级到"可用的世界状态"——音画同步、多视图一致、可导航 3D、可交互人物,四个方向的论文指向同一个趋势:生成模型正在从"创作工具"演变为"世界仿真器"。
训练方法层面,当模型规模增大带来的收益递减时,MEDS、RationalRewards、KnowRL 三篇高票论文不约而同把突破口放在"奖励信号"本身。从"记忆增强的动态奖励"到"可推理的奖励模型"再到"最小充分知识点稀疏引导",奖励建模正在经历与主模型相似的结构化升级,这将是未来 6-12 个月 RL 方向的主要战场。OPD 的机制研究则为"蒸馏到底什么时候起作用"提供了第一份可操作手册。
Agent 系统层面,OccuBench、CocoaBench、CodeTracer、AiScientist 合起来宣告 Agent 研究正式走完"Demo 期",进入"工程化期"——既要能被行业级评测(OccuBench)、又要支持统一能力组合(CocoaBench)、还要具备运行时可观测性(CodeTracer)和长时程持续推进能力(AiScientist)。这些看似独立的工作实际是同一个转型的四个面:Agent 能不能用不再取决于最亮眼的演示,而取决于评测、追踪、长运行这些工程约束。
对于做模型训练、Agent 产品或 3D/视频生成的团队,W16 的信号都足够明确:把"能做"和"能稳定地做、可度量地做、能做完整个流程"分开来看,后者已经是学界和工业界同步发力的重点。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-04-19 16:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。