WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2026 预研] LLaDA-o:打破自回归垄断,首个长度自适应的高效全能扩散模型
总结
问题
方法
结果
要点
摘要

LLaDA-o 是一个基于混合扩散(Mixture of Diffusion, MoD)框架的全能多模态扩散模型,能够在单一模型中统一处理文本理解与图像生成。它结合了离散掩码扩散(Masked Diffusion)处理文本和连续扩散(CDMs)处理视觉特征,并在 DPG-Bench 图像生成基准测试中达到了 87.04 的 SOTA 战绩。

TL;DR

在多模态理解与生成的赛道上,自回归(AR)模型长期占据统治地位。然而,本文提出的 LLaDA-o 证明了扩散模型(Diffusion Models)也能成为强大的“全能选手”。它通过 Mixture of Diffusion (MoD) 框架完美融合了文本的离散属性与图像的连续属性,并首次在扩散架构中实现了灵活的 变长解码。实验数据堪称惊艳:推理速度提升 5.9倍,且在复杂图像生成基准 DPG-Bench 上刷出了 87.04 的行业新高度。


1. 痛点:模态的“油水不溶”与长度的“紧箍咒”

在构建全能模型(Omni Models)时,研究者通常面临两大死穴:

  1. 目标不一致 (Objective Mismatch):文本生成本质上是离散分类任务(识别 Token),而图像生成通常在连续潜在空间(VAE Latent)中进行。如果用单一的稠密变换器(Dense Transformer)处理,不同模态的梯度会相互干扰,导致模型“理解不足”或“生成崩坏”。
  2. 固定长度局限:传统的掩码扩散模型(MDM)在推理前通常需要预设一个固定 Block 长度。这太僵硬了——如果生成的答案只有三个字,模型却被迫填充大量无意义 Token(Redundant Computation);反之则会截断。

2. 核心武器:混合扩散框架 (MoD)

LLaDA-o 的第一大创新是 MoD 框架。它的直觉非常清晰:让上帝的归上帝,凯撒的归凯撒。

  • 理解专家 (Understanding Expert):专门负责文本和视觉特征的离散建模。
  • 生成专家 (Generation Expert):专门通过连续扩散(基于 Rectified Flow)生成视觉 Latents。

虽然专家是解耦的,但它们共享一个高效的 模态内双向注意力 (Intra-modality Bidirectional Attention)。这种设计巧妙地利用了计算缓存(KV Cache),避免了在去噪步骤中对固定 Prompt 部分进行重复计算。

模型架构图


3. 创新直觉:变长生成如何实现?

LLaDA-o 引入了一种名为 Adaptive Length Augmentation 的数据增强策略。

在训练阶段,模型并非死板地预测完整序列,而是会随机遭遇:

  • EOS 填充:随机添加 [EOS] 标记,教会模型何时停下来。
  • 随机截断:将长文本截断为短前缀,训练模型在残缺状态下继续生成。

这种“数据驱动”的方法不需要修改任何模型架构,就能让扩散模型在推理时像 GPT 一样:当预测到 [EOS] 具有高置信度时,自动结束生成。


4. 实验验证:不仅是“能用”,而是 SOTA

在多模态理解的十项全能测试中,LLaDA-o 展现了恐怖的爆发力。

| 任务分项 | 指标提升 | | :--- | :--- | | 推理效率 | 相比 LLaDA-V 提升 5.9x | | 图像生成 (DPG-Bench) | 达到 87.04,超越 Lumina-DiMOO 和 Show-o2 | | 图表理解 (ChartQA) | 取得 87.9 的高分 |

实验结果对比 上图展示了 LLaDA-o 在复杂指令下的视觉对齐能力,其细节丰满度显著优于竞争对手。


5. 局限性与未来

虽然 LLaDA-o 在扩散模型领域立下了新的里程碑,但在纯语言逻辑上与顶级自回归模型(如使用 18T Token 喂出来的 Qwen2.5 核心)相比仍有差距。这是因为扩散类语言模型(dLLM)仍处于快速成长期,随着底层文本预训练规模的提升,这一差距有望闭合。

总结: LLaDA-o 告诉我们,扩散模型不需要追求与自回归“长得一模一样”,通过合理的专家分工和变长策略,它在理解与生成的一体化路径上,展现出了甚至更优的并行潜力与推理效率。


本文为技术解读,更多原理细节请参考 GitHub: ML-GSAI/LLaDA-o

发现相似论文

试试这些示例

  • 查找最近一年关于利用分块扩散(Block Diffusion)或非自回归机制提升大语言模型推理效率的论文。
  • 哪篇论文最早提出了多模态 Mixture-of-Transformers (MoT) 架构,LLaDA-o 在专家选择机制上与其有何异同?
  • 调研当前将离散掩码扩散(Masked Diffusion)应用于视觉-语言-动作(VLA)机器人控制任务的最新研究。
目录
[CVPR 2026 预研] LLaDA-o:打破自回归垄断,首个长度自适应的高效全能扩散模型
1. TL;DR
2. 1. 痛点:模态的“油水不溶”与长度的“紧箍咒”
3. 2. 核心武器:混合扩散框架 (MoD)
4. 3. 创新直觉:变长生成如何实现?
5. 4. 实验验证:不仅是“能用”,而是 SOTA
6. 5. 局限性与未来