dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

[ICLR 2026] dTRPO: 突破扩散 LLM 对齐瓶颈，实现高效轨迹缩减

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 dTRPO (Trajectory Reduction Policy Optimization)，一种针对扩散大语言模型 (dLLMs) 的高效离线策略优化方法。该方法通过状态缩减和比例缩减技术，仅需单次前向传播即可估算轨迹概率，显著提升了 dLLMs 的对齐效率。

TL;DR

扩散大语言模型 (dLLMs) 虽然在并行解码和双向上下文理解上展现了潜力，但其“后训练 (Post-training)”对齐过程一直因轨迹概率计算过于昂贵而进展缓慢。本文提出的 dTRPO (Trajectory Reduction Policy Optimization) 通过数学证明实现了轨迹的“缩减”，将原本需要数百次的前向传播简化为单次前向计算，在保持离线训练高效性的同时，显著提升了模型在推理、数学和代码任务上的表现。

1. 痛点深挖：为什么扩散模型对齐这么难？

在自回归模型 (ARMs) 中，Token 是一步步生成的，概率计算可以自然地分解为条件概率的乘积： $P (y) = \prod P (y_{i} ∣ y_{< i})$ 。通过一次前向传播，我们就能拿到所有 Token 的概率。

然而，扩散模型 (dLLMs) 是通过多步由乱码到清晰的去噪过程生成的。要计算一个完整轨迹的概率，理论上需要追踪中间每一个去噪步骤。

计算代价高：传统的对齐方法（如在线 RL）需要对每个样本进行数百次推演。
数值不稳定：掩码调度 (Masking Schedule) 带来的系数差异巨大，容易导致训练回传梯度爆炸或消失。

2. 核心直觉：从“轨迹”到“新 Token”的缩减

作者发现，虽然单个状态的概率很难求，但在 DPO (直接偏好优化) 框架下，我们需要的是“当前策略”与“参考策略”的概率比 (Probability Ratio)。

关键证明 (Theorem 3.2: Ratio Reduction)

作者证明，在计算两个策略的比例时，所有与掩码调度相关的物理系数会互相抵消。最终，轨迹的概率比竟然可以直接简化为：在每一步中被重新预测出来的（新 Token）的分类概率之比。

这意味着，我们不需要关心复杂的扩散物理过程，只需要关注那些从 [MASK] 变成具体文字的 Token。

模型架构图 图注：(a) 展示了 ARM 和 dLLM 生成逻辑的区别；(b) 揭示了 dTRPO 如何采样掩码 Token 并进行比例缩减。

3. 方法论：Block Attention 助力单次前向训练

为了进一步压榨效率，作者引入了 Block Attention。在训练时，通过巧妙设计 Attention Mask，让同一个 Batch 里的不同位置能够观测到不同的上下文中掩码状态。

状态缩减 (State Reduction)：原本需要遍历 T 个时间步，现在每块 (Block) 只采样一个时间步进行估算。
等效性：这种方法在数学上被证明是全局无偏的，大大降低了显存占用和计算时间。

4. 实验战绩：全线飘红

在 7B 参数规模的实验中，dTRPO 展现了极强的统治力：

数学推理 (MATH)：相比原始 Fast-dLLM-v2 提升了 4.04%。
科学常识 (GPQA)：提升幅度高达 9.59%。
指令遵循 (IFEval)：提升 2.95%，极大缩小了与顶尖自回归模型（如 Qwen2.5-7B-Instruct）的差距。

实验结果对比 图注：性能提升与训练成本对比。dTRPO 以极低的离线成本实现了与复杂在线方法相当甚至更好的性能。

此外，dTRPO 在推理速度上的优势依然明显。如表3所示，在 Arena-Hard 测试中，dTRPO 的吞吐量 (TPS) 达到了 29.87，远高于 Qwen2.5 基线的 16.20，实现了近 1.9 倍的推理加速。

5. 深度洞察与总结

dTRPO 的意义不仅在于刷新了几个 Benchmark，而在于它为 dLLM 设计了一套标准的后训练 pipeline。

价值总结 (Takeaways)

数学重构的力量：通过 Ratio Reduction，将复杂的扩散路径优化简化为简单的 Token 级别概率比对，这种降维打击是效率提升的关键。
训练推理一体化：通过引入推断时一致的调度策略（Confidence-based scheduling），训练过程能更好地模拟真实推理分布。

局限性与展望

尽管 dTRPO 极大缩小了与 ARMs 的差距，但在极高难度的推理任务上（如复杂的 Coding），dLLMs 仍有微小落后。未来的研究方向可能在于如何在大规模在线强化学习（如类似 DeepSeek-R1 的思路）中进一步应用这种轨迹缩减技术。

主编点评：扩散模型正在告别“训练贵、对齐难”的历史。dTRPO 证明了只要数学功底够深，看似复杂的非自回归生成同样可以像 GPT 一样优雅地进行偏好对齐。

Find Similar Papers

Try Our Examples

查找其他最近试图解决扩散语言模型 (Diffusion LLMs) 推理或训练过程中概率轨迹估算复杂度高的论文。
哪些研究最早探讨了离散扩散模型 (Discrete Diffusion) 在文本生成中的应用，dTRPO 的数学推导与之有何继承关系？
探究将 dTRPO 的轨迹缩减思想应用到多模态扩散模型（如图像生成或音频合成）的偏好对齐任务中的可行性研究。

Contents

[ICLR 2026] dTRPO: 突破扩散 LLM 对齐瓶颈，实现高效轨迹缩减

1. TL;DR

2. 1. 痛点深挖：为什么扩散模型对齐这么难？

3. 2. 核心直觉：从“轨迹”到“新 Token”的缩减

3.1. 关键证明 (Theorem 3.2: Ratio Reduction)

4. 3. 方法论：Block Attention 助力单次前向训练

5. 4. 实验战绩：全线飘红

6. 5. 深度洞察与总结

6.1. 价值总结 (Takeaways)

6.2. 局限性与展望