LLaDA-o 是一个基于混合扩散(Mixture of Diffusion, MoD)框架的全能多模态扩散模型,能够在单一模型中统一处理文本理解与图像生成。它结合了离散掩码扩散(Masked Diffusion)处理文本和连续扩散(CDMs)处理视觉特征,并在 DPG-Bench 图像生成基准测试中达到了 87.04 的 SOTA 战绩。
TL;DR
在多模态理解与生成的赛道上,自回归(AR)模型长期占据统治地位。然而,本文提出的 LLaDA-o 证明了扩散模型(Diffusion Models)也能成为强大的“全能选手”。它通过 Mixture of Diffusion (MoD) 框架完美融合了文本的离散属性与图像的连续属性,并首次在扩散架构中实现了灵活的 变长解码。实验数据堪称惊艳:推理速度提升 5.9倍,且在复杂图像生成基准 DPG-Bench 上刷出了 87.04 的行业新高度。
1. 痛点:模态的“油水不溶”与长度的“紧箍咒”
在构建全能模型(Omni Models)时,研究者通常面临两大死穴:
- 目标不一致 (Objective Mismatch):文本生成本质上是离散分类任务(识别 Token),而图像生成通常在连续潜在空间(VAE Latent)中进行。如果用单一的稠密变换器(Dense Transformer)处理,不同模态的梯度会相互干扰,导致模型“理解不足”或“生成崩坏”。
- 固定长度局限:传统的掩码扩散模型(MDM)在推理前通常需要预设一个固定 Block 长度。这太僵硬了——如果生成的答案只有三个字,模型却被迫填充大量无意义 Token(Redundant Computation);反之则会截断。
2. 核心武器:混合扩散框架 (MoD)
LLaDA-o 的第一大创新是 MoD 框架。它的直觉非常清晰:让上帝的归上帝,凯撒的归凯撒。
- 理解专家 (Understanding Expert):专门负责文本和视觉特征的离散建模。
- 生成专家 (Generation Expert):专门通过连续扩散(基于 Rectified Flow)生成视觉 Latents。
虽然专家是解耦的,但它们共享一个高效的 模态内双向注意力 (Intra-modality Bidirectional Attention)。这种设计巧妙地利用了计算缓存(KV Cache),避免了在去噪步骤中对固定 Prompt 部分进行重复计算。

3. 创新直觉:变长生成如何实现?
LLaDA-o 引入了一种名为 Adaptive Length Augmentation 的数据增强策略。
在训练阶段,模型并非死板地预测完整序列,而是会随机遭遇:
- EOS 填充:随机添加
[EOS]标记,教会模型何时停下来。 - 随机截断:将长文本截断为短前缀,训练模型在残缺状态下继续生成。
这种“数据驱动”的方法不需要修改任何模型架构,就能让扩散模型在推理时像 GPT 一样:当预测到 [EOS] 具有高置信度时,自动结束生成。
4. 实验验证:不仅是“能用”,而是 SOTA
在多模态理解的十项全能测试中,LLaDA-o 展现了恐怖的爆发力。
| 任务分项 | 指标提升 | | :--- | :--- | | 推理效率 | 相比 LLaDA-V 提升 5.9x | | 图像生成 (DPG-Bench) | 达到 87.04,超越 Lumina-DiMOO 和 Show-o2 | | 图表理解 (ChartQA) | 取得 87.9 的高分 |
上图展示了 LLaDA-o 在复杂指令下的视觉对齐能力,其细节丰满度显著优于竞争对手。
5. 局限性与未来
虽然 LLaDA-o 在扩散模型领域立下了新的里程碑,但在纯语言逻辑上与顶级自回归模型(如使用 18T Token 喂出来的 Qwen2.5 核心)相比仍有差距。这是因为扩散类语言模型(dLLM)仍处于快速成长期,随着底层文本预训练规模的提升,这一差距有望闭合。
总结: LLaDA-o 告诉我们,扩散模型不需要追求与自回归“长得一模一样”,通过合理的专家分工和变长策略,它在理解与生成的一体化路径上,展现出了甚至更优的并行潜力与推理效率。
本文为技术解读,更多原理细节请参考 GitHub: ML-GSAI/LLaDA-o
