2026 年第 13 周 AI 论文热点：扩散模型重新定义文档 OCR，世界模型进入交互评测时代

本周三个趋势

1. 文档理解从 OCR 走向扩散生成
本周最热论文 MinerU-Diffusion（124 upvotes）提出了一个大胆的范式转换：将文档 OCR 重新定义为"逆向渲染"问题，用扩散解码替代传统的自回归解码。传统 OCR 逐个字符生成，速度慢且容易在长文档中出错累积；扩散方法则可以并行生成整个文档结构，包括布局、表格和公式。这不仅仅是效率提升——它暗示扩散模型正在从图像生成向结构化信息提取拓展。

2. 世界模型进入交互评测时代
本周两篇高热论文共同指向一个转折：世界模型的评估标准正从"看起来像"走向"交互起来对"。Omni-WorldBench（122 upvotes）是首个面向 4D 世界模型交互响应能力的综合评测基准，不再只看视觉保真度和文本对齐，而是测试模型能否正确响应交互动作。WildWorld（84 upvotes）则从数据侧发力，构建了首个带显式状态标注的 ARPG 动作条件世界模型数据集。当评估和数据同步升级到"交互优先"，世界模型的下一阶段方向已经明确。

3. 多模态模型冲刺新高度：万亿参数 + 音视频统一
Intern-S1-Pro（99 upvotes）是首个万亿参数科学多模态基础模型，在通用和科学领域全面提升。daVinci-MagiHuman（114 upvotes）则走了另一条路——用单流 Transformer 统一处理文本、视频和音频 token，实现高效的音视频联合生成。一个冲向参数天花板，一个追求架构极简，两种路线都在推动多模态模型的能力边界。

本周精选论文（7 篇）

1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

👍 124 upvotes 📚 cs.CV 📅 2026-03-23

用扩散解码替代自回归解码，将文档 OCR 重新定义为逆向渲染问题

解决什么问题：结构化文档解析需要从图像中恢复包含布局、表格、公式的长序列。现有视觉语言模型依赖自回归解码，逐 token 生成，速度慢且错误累积严重。
核心方法：MinerU-Diffusion 将文档 OCR 视为渲染的逆过程——文档是从结构化标记语言"渲染"出来的，那么 OCR 就是从图像"反渲染"回结构化文本。采用扩散解码器并行生成整个文档结构，突破了自回归解码的顺序瓶颈。

为什么值得关注：这是扩散模型从"生成图像"拓展到"理解文档"的标志性工作。如果扩散解码在 OCR 上被验证有效，同样的范式可能扩展到代码生成、数学公式识别等更多结构化信息提取场景。

HuggingFace arXiv

扩散解码文档OCR逆向渲染并行生成

2. Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

👍 122 upvotes 📚 cs.CV 📅 2026-03-23

首个面向 4D 世界模型交互响应能力的综合评测基准

解决什么问题：视频世界模型沿两条路线发展——视频生成和 3D 重建，但现有基准要么只看生成质量（FVD、CLIP 分数），要么只评估静态 3D 指标，完全忽略了世界模型的核心能力：对交互动作的正确响应。
核心方法：Omni-WorldBench 统一了视频生成和 3D 重建两大范式的评估框架，聚焦于模型能否正确理解和响应用户的交互动作，从"被动观看"维度转向"主动交互"维度。

为什么值得关注：评估标准定义了优化方向。当世界模型的基准从"视觉保真度"转向"交互正确性"，模型开发者的重心也将随之转移——这对游戏 AI、机器人仿真、自动驾驶模拟等领域都有直接影响。

HuggingFace arXiv

世界模型交互评测4D基准视频生成3D重建

3. Speed by Simplicity: daVinci-MagiHuman Single-Stream Audio-Video Generation

👍 114 upvotes 📚 cs.CV 📅 2026-03-23

单流 Transformer 统一文本、视频、音频 token，实现高效音视频联合生成

解决什么问题：音视频联合生成通常需要多个独立模型或复杂的跨模态对齐模块，系统复杂度高、推理速度慢。
核心方法：daVinci-MagiHuman 是一个开源的音视频生成基础模型，核心创新在于使用单流 Transformer 将文本、视频和音频统一为 token 序列，通过自注意力机制自然实现跨模态同步。架构极简，但在人物生成场景下实现了高质量的音视频同步。

为什么值得关注："速度来自简洁"——这个标题本身就是最好的总结。当多模态生成模型从复杂的多流架构回归到单流设计，意味着该方向正在走向成熟和实用化。开源属性进一步降低了落地门槛。

HuggingFace arXiv

单流Transformer音视频生成多模态统一开源

4. PixelSmile: Toward Fine-Grained Facial Expression Editing

👍 105 upvotes 📚 cs.CV 📅 2026-03-26

实现细粒度面部表情编辑，支持连续可控的表情混合

解决什么问题：面部表情编辑长期受限于语义重叠——"微笑"和"高兴"在特征空间中难以区分，导致编辑一个表情时经常干扰其他表情。
核心方法：PixelSmile 构建了 Flex Facial Expression（FFE）数据集，采用连续情感标注代替离散类别，并建立 FFE-Bench 评估编辑准确性、线性可控性和结构混淆程度。实现了从离散表情切换到连续表情空间的精细控制。

为什么值得关注：AIGC 图像编辑正在从"能改"走向"改得准"。连续可控的面部表情编辑对数字人、影视后期、游戏角色动画等场景有直接应用价值。

HuggingFace arXiv

面部表情细粒度编辑连续可控AIGC

5. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

👍 99 upvotes 📚 cs.AI 📅 2026-03-26

首个万亿参数科学多模态基础模型，通用与科学能力全面提升

解决什么问题：科学研究需要模型同时具备强推理、图文理解和专业领域知识，但现有模型要么规模不足以覆盖科学知识广度，要么缺乏多模态理解能力。
核心方法：Intern-S1-Pro 将参数规模推到万亿级别，是首个达到这一量级的科学多模态基础模型。规模扩大带来的不只是量变——在推理、图文理解之外，模型展现出了跨学科知识整合的涌现能力。

为什么值得关注：万亿参数是一个心理和技术的双重里程碑。当模型规模进入这个量级，科学发现辅助、药物设计、材料科学等领域的 AI 应用可能进入新阶段。

HuggingFace arXiv

万亿参数科学模型多模态涌现能力

6. CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

👍 86 upvotes 📚 cs.AI 📅 2026-03-25

构建大规模人类标注的连续视频演示数据集，推动桌面自动化 Agent 发展

解决什么问题：桌面自动化 Agent（CUA）有巨大潜力，但发展受制于高质量人类演示数据的稀缺。关键发现：连续视频演示比稀疏截图对 Agent 学习更有效，但此前缺乏大规模的高质量视频数据。
核心方法：CUA-Suite 提供大规模、人类标注的连续视频演示数据集，覆盖复杂桌面工作流。强调"连续视频优于截图"这一数据范式，为 CUA 的训练和评测提供基础设施。

为什么值得关注：Agent 的能力上限由训练数据决定。从截图到连续视频的数据升级，可能是桌面 Agent 从"能点按钮"到"能完成工作流"的关键转折。

HuggingFace arXiv

桌面Agent视频演示人类标注自动化

7. WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions

👍 84 upvotes 📚 cs.CV 📅 2026-03-24

首个大规模显式状态标注的 ARPG 动作条件世界模型数据集

解决什么问题：动力系统理论将世界演化建模为潜在状态在动作驱动下的变化，但现有视频世界模型的数据集缺乏显式的动作标注和状态变量，只能学到视觉外观而非真正的动态规律。
核心方法：WildWorld 以 ARPG 游戏为场景，构建了带有显式动作条件和状态标注的大规模世界模型数据集。让模型不仅预测视觉变化，还要理解"什么动作导致了什么状态转变"。

为什么值得关注：与 Omni-WorldBench 呼应——当评测和数据都转向"动作驱动的交互"，世界模型从"被动视频预测"走向"主动环境理解"的趋势已经明确。这对游戏 AI 和机器人规划都有直接价值。

HuggingFace arXiv

世界模型ARPG动作条件状态标注动态建模

本周总结

本周 HuggingFace 热门论文呈现出一个鲜明的主题：AI 正在从"生成"走向"理解"。扩散模型不再只生成图像，而是开始理解文档结构；世界模型不再只预测视频，而是开始理解交互因果；音视频生成不再追求架构复杂度，而是回归简洁追求效率。

尤其值得关注的是世界模型评测的范式转变——Omni-WorldBench 和 WildWorld 从评测标准和数据两端同时推动"交互优先"理念。当基准定义改变了，优化方向也就改变了。这对 Embodied AI、游戏 AI、自动驾驶仿真等依赖世界模型的领域，是一个重要的风向标。

万亿参数模型（Intern-S1-Pro）的出现也标志着一个新阶段的开始。规模的极致扩展和架构的极致简化（daVinci-MagiHuman 的单流设计）并行发展，预示着多模态 AI 正在同时探索"更大"和"更高效"两个方向。

想实时追踪每天的 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿，经恩筑AI研究团队审核后发布。热度数据截至 2026-03-28 12:00 CST 抓取，upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv，趋势判断代表团队观点，仅供参考。

2026 年第 13 周 AI 论文热点：扩散模型重新定义文档 OCR，世界模型进入交互评测时代

本周三个趋势

本周精选论文（7 篇）

1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

2. Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

3. Speed by Simplicity: daVinci-MagiHuman Single-Stream Audio-Video Generation

4. PixelSmile: Toward Fine-Grained Facial Expression Editing

5. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

6. CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

7. WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions

本周总结

恩筑AI研究团队（NGJOO AI Lab）

相关阅读

每周 AI 论文热点（W12）：视频推理机制被颠覆，OpenClaw Agent 走向自进化

Video-Reasoning：扩散模型如何学会「推理」生成视频

每周 AI 论文热点（W11）：推理对齐、多模态训练、Agent 基础设施