本周三个趋势
1. 文档理解从 OCR 走向扩散生成
本周最热论文 MinerU-Diffusion(124 upvotes)提出了一个大胆的范式转换:将文档 OCR 重新定义为"逆向渲染"问题,用扩散解码替代传统的自回归解码。传统 OCR 逐个字符生成,速度慢且容易在长文档中出错累积;扩散方法则可以并行生成整个文档结构,包括布局、表格和公式。这不仅仅是效率提升——它暗示扩散模型正在从图像生成向结构化信息提取拓展。
本周最热论文 MinerU-Diffusion(124 upvotes)提出了一个大胆的范式转换:将文档 OCR 重新定义为"逆向渲染"问题,用扩散解码替代传统的自回归解码。传统 OCR 逐个字符生成,速度慢且容易在长文档中出错累积;扩散方法则可以并行生成整个文档结构,包括布局、表格和公式。这不仅仅是效率提升——它暗示扩散模型正在从图像生成向结构化信息提取拓展。
2. 世界模型进入交互评测时代
本周两篇高热论文共同指向一个转折:世界模型的评估标准正从"看起来像"走向"交互起来对"。Omni-WorldBench(122 upvotes)是首个面向 4D 世界模型交互响应能力的综合评测基准,不再只看视觉保真度和文本对齐,而是测试模型能否正确响应交互动作。WildWorld(84 upvotes)则从数据侧发力,构建了首个带显式状态标注的 ARPG 动作条件世界模型数据集。当评估和数据同步升级到"交互优先",世界模型的下一阶段方向已经明确。
本周两篇高热论文共同指向一个转折:世界模型的评估标准正从"看起来像"走向"交互起来对"。Omni-WorldBench(122 upvotes)是首个面向 4D 世界模型交互响应能力的综合评测基准,不再只看视觉保真度和文本对齐,而是测试模型能否正确响应交互动作。WildWorld(84 upvotes)则从数据侧发力,构建了首个带显式状态标注的 ARPG 动作条件世界模型数据集。当评估和数据同步升级到"交互优先",世界模型的下一阶段方向已经明确。
3. 多模态模型冲刺新高度:万亿参数 + 音视频统一
Intern-S1-Pro(99 upvotes)是首个万亿参数科学多模态基础模型,在通用和科学领域全面提升。daVinci-MagiHuman(114 upvotes)则走了另一条路——用单流 Transformer 统一处理文本、视频和音频 token,实现高效的音视频联合生成。一个冲向参数天花板,一个追求架构极简,两种路线都在推动多模态模型的能力边界。
Intern-S1-Pro(99 upvotes)是首个万亿参数科学多模态基础模型,在通用和科学领域全面提升。daVinci-MagiHuman(114 upvotes)则走了另一条路——用单流 Transformer 统一处理文本、视频和音频 token,实现高效的音视频联合生成。一个冲向参数天花板,一个追求架构极简,两种路线都在推动多模态模型的能力边界。
本周精选论文(7 篇)
1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
👍 124 upvotes
📚 cs.CV
📅 2026-03-23
用扩散解码替代自回归解码,将文档 OCR 重新定义为逆向渲染问题
解决什么问题:结构化文档解析需要从图像中恢复包含布局、表格、公式的长序列。现有视觉语言模型依赖自回归解码,逐 token 生成,速度慢且错误累积严重。
核心方法:MinerU-Diffusion 将文档 OCR 视为渲染的逆过程——文档是从结构化标记语言"渲染"出来的,那么 OCR 就是从图像"反渲染"回结构化文本。采用扩散解码器并行生成整个文档结构,突破了自回归解码的顺序瓶颈。
核心方法:MinerU-Diffusion 将文档 OCR 视为渲染的逆过程——文档是从结构化标记语言"渲染"出来的,那么 OCR 就是从图像"反渲染"回结构化文本。采用扩散解码器并行生成整个文档结构,突破了自回归解码的顺序瓶颈。
为什么值得关注:这是扩散模型从"生成图像"拓展到"理解文档"的标志性工作。如果扩散解码在 OCR 上被验证有效,同样的范式可能扩展到代码生成、数学公式识别等更多结构化信息提取场景。
2. Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models
👍 122 upvotes
📚 cs.CV
📅 2026-03-23
首个面向 4D 世界模型交互响应能力的综合评测基准
解决什么问题:视频世界模型沿两条路线发展——视频生成和 3D 重建,但现有基准要么只看生成质量(FVD、CLIP 分数),要么只评估静态 3D 指标,完全忽略了世界模型的核心能力:对交互动作的正确响应。
核心方法:Omni-WorldBench 统一了视频生成和 3D 重建两大范式的评估框架,聚焦于模型能否正确理解和响应用户的交互动作,从"被动观看"维度转向"主动交互"维度。
核心方法:Omni-WorldBench 统一了视频生成和 3D 重建两大范式的评估框架,聚焦于模型能否正确理解和响应用户的交互动作,从"被动观看"维度转向"主动交互"维度。
为什么值得关注:评估标准定义了优化方向。当世界模型的基准从"视觉保真度"转向"交互正确性",模型开发者的重心也将随之转移——这对游戏 AI、机器人仿真、自动驾驶模拟等领域都有直接影响。
3. Speed by Simplicity: daVinci-MagiHuman Single-Stream Audio-Video Generation
👍 114 upvotes
📚 cs.CV
📅 2026-03-23
单流 Transformer 统一文本、视频、音频 token,实现高效音视频联合生成
解决什么问题:音视频联合生成通常需要多个独立模型或复杂的跨模态对齐模块,系统复杂度高、推理速度慢。
核心方法:daVinci-MagiHuman 是一个开源的音视频生成基础模型,核心创新在于使用单流 Transformer 将文本、视频和音频统一为 token 序列,通过自注意力机制自然实现跨模态同步。架构极简,但在人物生成场景下实现了高质量的音视频同步。
核心方法:daVinci-MagiHuman 是一个开源的音视频生成基础模型,核心创新在于使用单流 Transformer 将文本、视频和音频统一为 token 序列,通过自注意力机制自然实现跨模态同步。架构极简,但在人物生成场景下实现了高质量的音视频同步。
为什么值得关注:"速度来自简洁"——这个标题本身就是最好的总结。当多模态生成模型从复杂的多流架构回归到单流设计,意味着该方向正在走向成熟和实用化。开源属性进一步降低了落地门槛。
4. PixelSmile: Toward Fine-Grained Facial Expression Editing
👍 105 upvotes
📚 cs.CV
📅 2026-03-26
实现细粒度面部表情编辑,支持连续可控的表情混合
解决什么问题:面部表情编辑长期受限于语义重叠——"微笑"和"高兴"在特征空间中难以区分,导致编辑一个表情时经常干扰其他表情。
核心方法:PixelSmile 构建了 Flex Facial Expression(FFE)数据集,采用连续情感标注代替离散类别,并建立 FFE-Bench 评估编辑准确性、线性可控性和结构混淆程度。实现了从离散表情切换到连续表情空间的精细控制。
核心方法:PixelSmile 构建了 Flex Facial Expression(FFE)数据集,采用连续情感标注代替离散类别,并建立 FFE-Bench 评估编辑准确性、线性可控性和结构混淆程度。实现了从离散表情切换到连续表情空间的精细控制。
为什么值得关注:AIGC 图像编辑正在从"能改"走向"改得准"。连续可控的面部表情编辑对数字人、影视后期、游戏角色动画等场景有直接应用价值。
5. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
👍 99 upvotes
📚 cs.AI
📅 2026-03-26
首个万亿参数科学多模态基础模型,通用与科学能力全面提升
解决什么问题:科学研究需要模型同时具备强推理、图文理解和专业领域知识,但现有模型要么规模不足以覆盖科学知识广度,要么缺乏多模态理解能力。
核心方法:Intern-S1-Pro 将参数规模推到万亿级别,是首个达到这一量级的科学多模态基础模型。规模扩大带来的不只是量变——在推理、图文理解之外,模型展现出了跨学科知识整合的涌现能力。
核心方法:Intern-S1-Pro 将参数规模推到万亿级别,是首个达到这一量级的科学多模态基础模型。规模扩大带来的不只是量变——在推理、图文理解之外,模型展现出了跨学科知识整合的涌现能力。
为什么值得关注:万亿参数是一个心理和技术的双重里程碑。当模型规模进入这个量级,科学发现辅助、药物设计、材料科学等领域的 AI 应用可能进入新阶段。
6. CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
👍 86 upvotes
📚 cs.AI
📅 2026-03-25
构建大规模人类标注的连续视频演示数据集,推动桌面自动化 Agent 发展
解决什么问题:桌面自动化 Agent(CUA)有巨大潜力,但发展受制于高质量人类演示数据的稀缺。关键发现:连续视频演示比稀疏截图对 Agent 学习更有效,但此前缺乏大规模的高质量视频数据。
核心方法:CUA-Suite 提供大规模、人类标注的连续视频演示数据集,覆盖复杂桌面工作流。强调"连续视频优于截图"这一数据范式,为 CUA 的训练和评测提供基础设施。
核心方法:CUA-Suite 提供大规模、人类标注的连续视频演示数据集,覆盖复杂桌面工作流。强调"连续视频优于截图"这一数据范式,为 CUA 的训练和评测提供基础设施。
为什么值得关注:Agent 的能力上限由训练数据决定。从截图到连续视频的数据升级,可能是桌面 Agent 从"能点按钮"到"能完成工作流"的关键转折。
7. WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions
👍 84 upvotes
📚 cs.CV
📅 2026-03-24
首个大规模显式状态标注的 ARPG 动作条件世界模型数据集
解决什么问题:动力系统理论将世界演化建模为潜在状态在动作驱动下的变化,但现有视频世界模型的数据集缺乏显式的动作标注和状态变量,只能学到视觉外观而非真正的动态规律。
核心方法:WildWorld 以 ARPG 游戏为场景,构建了带有显式动作条件和状态标注的大规模世界模型数据集。让模型不仅预测视觉变化,还要理解"什么动作导致了什么状态转变"。
核心方法:WildWorld 以 ARPG 游戏为场景,构建了带有显式动作条件和状态标注的大规模世界模型数据集。让模型不仅预测视觉变化,还要理解"什么动作导致了什么状态转变"。
为什么值得关注:与 Omni-WorldBench 呼应——当评测和数据都转向"动作驱动的交互",世界模型从"被动视频预测"走向"主动环境理解"的趋势已经明确。这对游戏 AI 和机器人规划都有直接价值。
本周总结
本周 HuggingFace 热门论文呈现出一个鲜明的主题:AI 正在从"生成"走向"理解"。扩散模型不再只生成图像,而是开始理解文档结构;世界模型不再只预测视频,而是开始理解交互因果;音视频生成不再追求架构复杂度,而是回归简洁追求效率。
尤其值得关注的是世界模型评测的范式转变——Omni-WorldBench 和 WildWorld 从评测标准和数据两端同时推动"交互优先"理念。当基准定义改变了,优化方向也就改变了。这对 Embodied AI、游戏 AI、自动驾驶仿真等依赖世界模型的领域,是一个重要的风向标。
万亿参数模型(Intern-S1-Pro)的出现也标志着一个新阶段的开始。规模的极致扩展和架构的极致简化(daVinci-MagiHuman 的单流设计)并行发展,预示着多模态 AI 正在同时探索"更大"和"更高效"两个方向。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-03-28 12:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。