为什么这篇论文值得关注
目前的大语言模型几乎全部走自回归(autoregressive)路线——一个 token 接一个 token 地生成。GPT 系列、Llama、Qwen、DeepSeek 都是这条路线。
但还有一条少数派路线一直在低调推进:离散扩散语言模型(dLLM, discrete diffusion Language Model)。它把扩散模型(DDPM 等)的思路从图像生成迁移到文本生成——通过逐步去掩码(unmasking)的方式生成文本,本质上是并行而非序列。
dLLM 此前主要在纯文本生成上验证,多模态扩展能力一直未被充分证明。LLaDA2.0-Uni 给出了答案:用扩散 LLM 架构原生统一多模态理解和生成,消除主流路线"理解模型 + 生成模型"分离的架构碎片化。
这事的战略意义在于:如果扩散 LLM 在多模态生成质量和效率上能持续追平甚至超越自回归 LLM,未来 12 个月的多模态模型选型可能会洗牌。LLaDA2.0-Uni 是这条路线上最新、最完整的开源实证。
架构三层组件
SigLIP-VQ:把连续视觉信号离散化为 token
主流多模态模型(如 LLaVA)用连续 patch embedding 接 LLM,本质是"两个模型粘起来"。LLaDA2.0-Uni 用 SigLIP-VQ(SigLIP + Vector Quantization)把视觉输入离散化为 token 序列,让视觉和文本在表示空间完全统一——这是扩散 LLM 处理多模态的关键基础。
MoE-based dLLM:混合专家 + 离散扩散主干
主干是 MoE(Mixture of Experts)+ 离散扩散的组合。MoE 提供了在不增加每 token 计算的前提下扩大模型容量的能力,离散扩散提供了并行解码和块级生成能力。两者结合让模型既"大"又"快"。
扩散解码器:从 token 重建高保真图像
生成图像时,模型先在 token 空间产出离散结果,再用扩散解码器从 token 重建高保真像素级图像。论文还提到使用少步蒸馏降低解码延迟。
训练机制:块级掩码扩散
LLaDA2.0-Uni 用块级掩码扩散(block-level masked diffusion)同时训练理解和生成:
- 理解任务:掩码文本块,根据图像 + 上下文生成;
- 生成任务:掩码图像 token 块,根据文本 + 上下文生成。
两类任务共用同一个 dLLM 主干,通过前缀感知优化(prefix-aware optimization)让模型自适应处理不同任务的上下文结构。这种统一让"理解→生成→理解→生成"的多轮多模态对话变得自然。
与主流路线对比
| 路线 | 代表模型 | 理解 + 生成 | 解码方式 |
|---|---|---|---|
| 自回归 LLM(主流) | GPT-4V, Qwen-VL, LLaVA | 常需分离模型 | 逐 token 序列解码 |
| 纯扩散图像生成 | Stable Diffusion, DALL·E | 只生成 | 扩散去噪 |
| 统一自回归多模态 | Show-o, Chameleon | 统一 | 逐 token 解码 |
| LLaDA2.0-Uni(本文) | 离散扩散 LLM | 原生统一 | 块级并行扩散去掩码 |
关键差异:LLaDA2.0-Uni 的解码本质是并行的(虽然是分块迭代),相比逐 token 自回归在长序列生成时有潜在的速度优势。
它能用来做什么
- 统一多模态对话系统:同一个模型处理"看图说话 + 文生图 + 编辑图 + 多轮多模态推理",不需要切换不同模型。
- 电商内容生成:商品图理解 → 文案生成 → 海报生成 一个 pipeline 内完成(这也是蚂蚁集团的天然业务场景)。
- 研究 dLLM 多模态扩展:作为学界研究扩散 LLM 在多模态上能力上限的开源 baseline。
- 低延迟多模态推理:在并行解码优势真正实现的场景,可能比同规模自回归模型更快。
当前局限
1. abstract 未给出与自回归 baseline 的详细对比数字。 论文声称统一架构有优势,但具体的多模态 benchmark 得分(MMMU、MMBench、文生图 FID 等)需要查论文正文。
2. 训练数据规模未公开。 只说"精心策划的大规模数据",没有具体 token 数量。
3. dLLM 路线整体仍是少数派。 生态工具链(推理引擎、量化、部署)远不如自回归模型成熟,落地工程化阻力较大。
4. 扩散解码器的少步蒸馏细节未明。 "少步"具体是几步,质量损失多少,需要正文确认。
作者与机构
论文 17 位共同作者(Tiwei Bie、Haoxing Chen、Tieyuan Chen 等)。主导单位是 Inclusion AI——这是蚂蚁集团(Ant Group)旗下的 AI Lab,长期投入扩散 LLM 方向(LLaDA 系列)。从 LLaDA 1.0 到 2.0 再到 2.0-Uni,可以看出蚂蚁是为数不多坚定下注 dLLM 路线的大厂之一。
资源链接
- 论文:arXiv:2604.20796
- GitHub(开源代码 + 模型):github.com/inclusionAI/LLaDA2.0-Uni
- HuggingFace Papers:huggingface.co/papers/2604.20796(221 upvotes)
总结评价
LLaDA2.0-Uni 不是要在 benchmark 上"打过"GPT-5——这件事 dLLM 短期做不到。它的真正价值是证明"扩散 LLM 可以原生统一多模态"在工程上是可行的,给社区一份完整的开源参考实现。
对于多模态架构选型,未来 12 个月可能形成"自回归(主流) + 扩散 LLM(挑战者)"两条并行路线。LLaDA2.0-Uni 的具体生态影响要看:①开源后社区是否真有人继续训练/微调;②是否能在某个具体场景(比如长序列生成、并行视觉理解)上展示出 dLLM 的不可替代优势。
蚂蚁选择把这条路线坚持做下去而不是跟随主流,本身就是一个值得关注的产业信号——对扩散 LLM 路线的下注,可能在 12-24 个月后看到回报。