MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

用扩散解码替代自回归解码,将文档 OCR 重新定义为逆向渲染问题,实现并行生成整个文档结构。

2026-03-23arXiv: 2603.22458置信度 75%

PixelSmile: Toward Fine-Grained Facial Expression Editing

实现细粒度面部表情编辑,构建连续情感标注数据集 FFE,支持连续可控的表情混合。

2026-03-26arXiv: 2603.25728

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

首个万亿参数科学多模态基础模型,在通用与科学领域全面提升推理和图文理解能力。

2026-03-26arXiv: 2603.25040