扩散语言模型在文本生成上是否优于自回归模型？

扩散模型生成文本的多样性是否优于自回归模型？

确实，扩散模型能生成更多样化的文本，但往往以牺牲语法一致性为代价。在一项控制对比实验中，两种模型在相同数据和计算资源下训练，自回归模型生成了流畅但重复的输出——99.8%的故事以同一个词开头。相比之下，扩散模型实现了93.4%的独特五词开头，并在Distinct-n和Self-BLEU等多样性指标上得分更高，尽管偶尔会出现语法错误[3]。这意味着，如果你需要创意变化（例如头脑风暴或故事生成），扩散模型是更优选择；但如果你需要精炼、无错误的文本，自回归模型仍然更胜一筹。

扩散模型生成文本的速度能比自回归模型更快吗？

是的，扩散模型在处理长文本时可以显著提速，因为它们能并行生成多个词元，而非逐个生成。近期一种少步扩散模型（FS-DFM）仅用8步采样就达到了与1024步基线相同的质量，在生成1024词元序列时速度提升了128倍[4]。另一项研究发现，扩散模型的计算效率比同等规模的自回归模型高出21.8倍，在OpenWebText数据集上实现了更优的困惑度（7.77对比12.99）[5]。不过，未经优化的标准扩散模型可能需要数百步采样，因此在处理短文本时反而比自回归模型更慢。

哪种模型类型在推理和事实准确性上更优？

在复杂推理任务中，自回归模型仍优于扩散模型，但结合两者的混合方法展现出潜力。当使用扩散模型作为规划器、自回归模型作为执行器时，该流程在AIME24数学基准测试中仅达到14%的准确率，而纯自回归模型在消耗44倍token的情况下得分远高于此[1]。然而，扩散模型具有独特优势：它们能在生成过程中检测自身的不确定性。一种名为OSCAR的技术利用扩散模型的内部不确定性信号来识别并纠正幻觉，从而提升TriviaQA和HotpotQA等基准测试中的事实准确性——这是自回归模型所不具备的能力，因为自回归模型会按顺序逐个生成token，且无法回溯修改之前的决策[2]。因此，在需要逐步逻辑推理的任务中，自回归模型仍然更胜一筹，但扩散模型在生成过程中具备更好的自我修正能力。

本文引用的文献

规划者与执行者：离散扩散模型与自回归模型在推理中的协作

一种混合流水线方法将扩散模型作为规划器、自回归模型作为执行器，在AIME24数学问题上的准确率仅为14%，远低于使用44倍token数量的纯自回归模型。

2025 · Lina Berrayana, Ahmed Heakl, M. Sohail, Thomas Hofmann, Salman Khan, Wei Chen · arXiv.org

原文

OSCAR：编排式自我验证与跨路径精炼

OSCAR利用扩散模型内部的不确定性信号来检测并纠正幻觉，从而在TriviaQA和HotpotQA上提升了事实准确性——这一能力在自回归模型中并不具备。

2026 · Yash Shah, Abhijit Chakraborty, Naresh Kumar Devulapally, Vishnu Lokhande, Vivek Gupta · arXiv (Cornell University)

WisPaper

原文

自回归语言模型与掩码扩散语言模型：一项受控比较

在相同数据与算力的受控对比中，自回归模型生成了99.8%完全相同的故事开头，而扩散模型虽能产出93.4%独特的五词开头，但偶尔会出现语法错误。

2026 · Caio Vicentino

原文

FS-DFM：基于少步扩散语言模型的快速精准长文本生成

采用8步采样的FS-DFM模型，其质量与1024步的基线模型相当，在生成1024个token的序列时，速度提升了高达128倍。

2025 · Amin Karimi Monsefi, Nikhil Bhendawade, Manuel R. Ciosici, Dominic Leon Culver, Yizhe Zhang, I. Belousova · arXiv.org

原文

MDM-Prime-v2：二进制编码与索引混洗实现扩散语言模型的计算最优缩放

MDM-Prime-v2 的计算效率是自回归模型的 21.8 倍，在 OpenWebText 上实现了 7.77 的困惑度，而自回归模型为 12.99。

2026 · Chen-Hao Chao, Wei-Fang Sun, Junwei Quan, Chun-Yi Lee, Rahul G. Krishnan · arXiv (Cornell University)

WisPaper

原文