LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

[CVPR 2026 预研] LLaDA-o：打破自回归垄断，首个长度自适应的高效全能扩散模型

总结

问题

方法

结果

要点

摘要

LLaDA-o 是一个基于混合扩散（Mixture of Diffusion, MoD）框架的全能多模态扩散模型，能够在单一模型中统一处理文本理解与图像生成。它结合了离散掩码扩散（Masked Diffusion）处理文本和连续扩散（CDMs）处理视觉特征，并在 DPG-Bench 图像生成基准测试中达到了 87.04 的 SOTA 战绩。

TL;DR

在多模态理解与生成的赛道上，自回归（AR）模型长期占据统治地位。然而，本文提出的 LLaDA-o 证明了扩散模型（Diffusion Models）也能成为强大的“全能选手”。它通过 Mixture of Diffusion (MoD) 框架完美融合了文本的离散属性与图像的连续属性，并首次在扩散架构中实现了灵活的 变长解码。实验数据堪称惊艳：推理速度提升 5.9倍，且在复杂图像生成基准 DPG-Bench 上刷出了 87.04 的行业新高度。

1. 痛点：模态的“油水不溶”与长度的“紧箍咒”

在构建全能模型（Omni Models）时，研究者通常面临两大死穴：

目标不一致 (Objective Mismatch)：文本生成本质上是离散分类任务（识别 Token），而图像生成通常在连续潜在空间（VAE Latent）中进行。如果用单一的稠密变换器（Dense Transformer）处理，不同模态的梯度会相互干扰，导致模型“理解不足”或“生成崩坏”。
固定长度局限：传统的掩码扩散模型（MDM）在推理前通常需要预设一个固定 Block 长度。这太僵硬了——如果生成的答案只有三个字，模型却被迫填充大量无意义 Token（Redundant Computation）；反之则会截断。

2. 核心武器：混合扩散框架 (MoD)

LLaDA-o 的第一大创新是 MoD 框架。它的直觉非常清晰：让上帝的归上帝，凯撒的归凯撒。

理解专家 (Understanding Expert)：专门负责文本和视觉特征的离散建模。
生成专家 (Generation Expert)：专门通过连续扩散（基于 Rectified Flow）生成视觉 Latents。

虽然专家是解耦的，但它们共享一个高效的 模态内双向注意力 (Intra-modality Bidirectional Attention)。这种设计巧妙地利用了计算缓存（KV Cache），避免了在去噪步骤中对固定 Prompt 部分进行重复计算。

模型架构图

3. 创新直觉：变长生成如何实现？

LLaDA-o 引入了一种名为 Adaptive Length Augmentation 的数据增强策略。

在训练阶段，模型并非死板地预测完整序列，而是会随机遭遇：

EOS 填充：随机添加 [EOS] 标记，教会模型何时停下来。
随机截断：将长文本截断为短前缀，训练模型在残缺状态下继续生成。

这种“数据驱动”的方法不需要修改任何模型架构，就能让扩散模型在推理时像 GPT 一样：当预测到 [EOS] 具有高置信度时，自动结束生成。

4. 实验验证：不仅是“能用”，而是 SOTA

在多模态理解的十项全能测试中，LLaDA-o 展现了恐怖的爆发力。

实验结果对比 上图展示了 LLaDA-o 在复杂指令下的视觉对齐能力，其细节丰满度显著优于竞争对手。

5. 局限性与未来

虽然 LLaDA-o 在扩散模型领域立下了新的里程碑，但在纯语言逻辑上与顶级自回归模型（如使用 18T Token 喂出来的 Qwen2.5 核心）相比仍有差距。这是因为扩散类语言模型（dLLM）仍处于快速成长期，随着底层文本预训练规模的提升，这一差距有望闭合。

总结： LLaDA-o 告诉我们，扩散模型不需要追求与自回归“长得一模一样”，通过合理的专家分工和变长策略，它在理解与生成的一体化路径上，展现出了甚至更优的并行潜力与推理效率。

本文为技术解读，更多原理细节请参考 GitHub: ML-GSAI/LLaDA-o

发现相似论文

试试这些示例

查找最近一年关于利用分块扩散（Block Diffusion）或非自回归机制提升大语言模型推理效率的论文。
哪篇论文最早提出了多模态 Mixture-of-Transformers (MoT) 架构，LLaDA-o 在专家选择机制上与其有何异同？
调研当前将离散掩码扩散（Masked Diffusion）应用于视觉-语言-动作（VLA）机器人控制任务的最新研究。

[CVPR 2026 预研] LLaDA-o：打破自回归垄断，首个长度自适应的高效全能扩散模型

1. TL;DR

2. 1. 痛点：模态的“油水不溶”与长度的“紧箍咒”

3. 2. 核心武器：混合扩散框架 (MoD)

4. 3. 创新直觉：变长生成如何实现？

5. 4. 实验验证：不仅是“能用”，而是 SOTA

6. 5. 局限性与未来