WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[arXiv 2026] DMax:重塑扩散语言模型,开启激进并行解码新时代
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 DMax,一种旨在解决扩散语言模型 (dLLM) 并行解码中误差累积问题的新型范式。通过引入 On-Policy Uniform Training 和 Soft Parallel Decoding,DMax 在 LLaDA-2.0-mini 基础上显著提升了解码并行度,不仅将推理速度(TPS)提升至 1338 以上,还在 GSM8K 和 MBPP 等任务上实现了 2-3 倍的 TPF(Tokens Per Forward)增长,且几乎无损生成质量。

1. 核心速览 (Executive Summary)

TL;DR:DMax 是一种针对扩散语言模型 (dLLM) 的高效解码范式。它通过 On-Policy Uniform Training (OPUT) 解决训练与推理不一致的痛点,并利用 Soft Parallel Decoding (SPD) 实现嵌入空间的自纠错,成功克服了长期困扰非自回归模型的“误差累积”问题。

背景定位:在 Autoregressive (AR) 模型统治地位下,dLLM 以并行生成的潜力被寄予厚望。DMax 并非仅仅是微小的 SOTA 刷榜,它针对现有 LLaDA 等模型的根本性设计缺陷(二进制 Mask 转换)提出了变革性的“软修正”方案,使 dLLM 的理论推理优势真正转化为数倍的 TPS 提升。

2. 痛点:为什么强行并行会导致“语义崩溃”?

现有的 Masked Diffusion (MDLM) 在推理时通常遵循一种“开弓没有回头箭”的逻辑:

  • 二进制状态:一个位置要么是 [MASK],要么是确定的 Token
  • 误差放大:在并行度极高的情况下,模型不可避免会产生错误。由于传统方法将这些初级预测视为固定上下文,错误会像滚雪球一样扩散,最终导致模型生成的文本逻辑混乱。
  • 缺乏机制:目前的 dLLM 缺乏类似人类“写了发现不对再改”的回退纠错能力。

3. 核心方案:DMax 的两大法宝

3.1 On-Policy Uniform Training (OPUT):拒绝生搬硬套

传统的 Uniform Training 使用随机采样的 Token 作为噪声,但这与模型实际推理时的错误分布天差地别。

  • 直觉:让模型在训练阶段就接触到“自己产生的错误”。
  • 实现:采样 corruption level ,生成 Mask 序列进行 Parallel Forward,提取模型生成的 Predicted Noise,再以此作为输入进行第二次 Forward。这种 On-Policy(同策略) 的方式能让模型学会从真实的错误上下文捕捉修正信号。

训练流程图

3.2 Soft Parallel Decoding (SPD):给预测留点余地

这是 DMax 最具学术美感的创新。它不再强求模型立即做出“是或否”的判定,而是:

  • 混合嵌入 (Hybrid Embedding):将中间状态定义为预测 Token 与 Mask 的线性加权插值,权重由预测置信度 决定。
  • 软自修复:在高维空间中,这种插值保留了不确定性,允许模型在后续迭代中平滑地修正之前的低置信度预测。

SPD 解码流程

4. 实验与结果:速度与质量的兼得

DMax 在 LLaDA-2.0-mini 基座上展现出了惊人的效率:

  • 速度飙升:在 GSM8K 数学推理任务上,TPF (Tokens Per Forward) 从 2.04 飙升至 5.48,在代码生成 MBPP 任务中从 2.71 提升至 5.86
  • 精度稳健:与基准模型相比,DMax 即使加大了并行力度,其准确率几乎没有下降(甚至在低并行模式下利用纠错机制提升了 0.8%-3.0% 的 Accuracy)。

实验结果对比

5. 深度洞察与总结 (Critical Analysis)

核心洞察:DMax 的成功意味着扩散模型的并行效率瓶颈并不在 Transformer 架构本身,而在 输入表征的离散性。通过将 [MASK] 视为“最大不确定性”并以此构建连续的修正路径,DMax 真正释放了非自回归模型的理论潜能。

局限性

  • 该方法对训练数据的质量(Self-distillation Data)有一定依赖。
  • 在处理极其复杂的逻辑长链时,多次迭代自修复的计算开销仍需进一步优化以达到最优性价比。

未来展望: DMax 确立了 dLLM 并行解码的新基准。这种“软状态演化”的思想极有可能在未来扩展到多模态(Vision-Language-Action)任务中,为实时交互式的 AI 智能体提供极低延迟的生成能力。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决基于遮蔽的扩散模型(Masked Diffusion Models)在文本并行生成中误差累积问题的论文。
  • 哪篇论文最早在 Transformer 架构中提出了 Uniform Diffusion 概念,DMax 提出的 On-Policy 策略与之相比量化提升了多少?
  • 有哪些研究将类似 DMax 的软插值解码(Soft Interpolation)或嵌入空间修复技术应用到了图像生成或语音生成任务中?
Contents
[arXiv 2026] DMax:重塑扩散语言模型,开启激进并行解码新时代
1. 1. 核心速览 (Executive Summary)
2. 2. 痛点:为什么强行并行会导致“语义崩溃”?
3. 3. 核心方案:DMax 的两大法宝
3.1. 3.1 On-Policy Uniform Training (OPUT):拒绝生搬硬套
3.2. 3.2 Soft Parallel Decoding (SPD):给预测留点余地
4. 4. 实验与结果:速度与质量的兼得
5. 5. 深度洞察与总结 (Critical Analysis)