哪些论文提出了加速扩散模型生成过程的方法？

核心权衡：在不损害图像质量的前提下，能提升多少速度？

扩散模型的每一种加速方法都面临同样的根本矛盾：采样步数越少（或每步计算越轻量），生成速度越快，但往往以输出更模糊、更嘈杂或更不连贯为代价。最优秀的方法能在大幅缩短推理时间的同时，几乎不损失质量。例如，Meng等人[3]提出的蒸馏方法，在ImageNet 64×64数据集上仅用4步采样就能生成与原始模型视觉上相当的结果，实现256倍加速，同时FID/IS分数与原始模型接近。同样，Flash Diffusion[11]在COCO数据集上以极少的GPU训练时长，达到了少步生成的最优FID和CLIP-Score。而像DeepCache[8]这类更简单的缓存方法，加速效果相对有限（Stable Diffusion v1.5上为2.3倍），但质量几乎无损（CLIP Score仅下降0.05）。结论是：若追求极致速度（如实时生成），蒸馏是首选；若必须不惜代价保质量，缓存或更优的数值求解器则更为稳妥。

四大加速方法家族及其对比

这些论文可归纳为四种不同策略。其一，蒸馏方法[3][11]通过训练更小或更快的模型，以极少的步骤模仿原始模型的输出。例如，Meng等人[3]将无分类器引导扩散蒸馏为一个仅需1-4步的模型，在Stable Diffusion等潜空间模型上实现了至少10倍的推理加速。其二，特征缓存方法[1][8]利用去噪步骤间的冗余性：DeepCache[8]在相邻步骤间复用U-Net高层特征，在LDM-4-G上实现4.1倍加速，ImageNet上FID仅增加0.22；LESA[1]则更进一步，采用可学习预测器适应不同噪声水平，在FLUX.1-dev上实现5倍加速，质量损失仅1.0%。其三，更优数值求解器[5][7]改进了底层微分方程的离散化方法。PNDMs[7]将扩散视为流形上的常微分方程求解，50步生成图像质量即超越DDIM的1000步（20倍加速）；时间步调谐器[5]调整每个区间的积分方向，在LSUN卧室数据集上仅用10步便将FID从9.65降至6.07。其四，潜空间方法[6][9]在压缩表示中执行扩散过程。LaDiffuSeq[9]通过低维潜空间将文本生成采样速度提升四倍，而LDM+Cold Diffusion框架[6]通过用任务特定退化替代高斯噪声，在CT去噪任务中实现14倍采样加速。

领域专用加速：MRI与CT成像迎来定制化解决方案

医学影像对重建提出了独特的要求：既要快速，又要精准，且数据具有特殊结构（例如MRI中的k空间）。多篇论文提出了利用这种结构的方法。在加速MRI方面，HFS-SDE[2]将扩散过程限制在k空间的高频区域，确保低频（完全采样）区域保持确定性，从而加速采样并提升稳定性。FDMR[4]将对抗训练与三阶段推理框架（快速生成、早停自适应、精炼）相结合，相比标准扩散模型实现了4–10倍的加速，仅需8秒即可重建一幅图像。SPIRiT-Diffusion[12]基于k空间插值的物理原理设计了定制化的随机微分方程，在10倍加速下实现了高质量重建。在CT去噪方面，LDM+Cold Diffusion框架[6]通过在潜在空间中工作并使用任务特定的退化替代高斯噪声，实现了比标准DDPM快14倍的采样速度。这些领域特定方法往往优于通用加速技术，因为它们融入了关于测量过程的先验知识。

证据尚未解决的问题：泛化能力、训练成本与“免费午餐”问题

尽管已有令人瞩目的成果，但仍存在若干待解问题。首先，多数方法仅在特定模型架构（如U-Net、DiT）和数据集（如ImageNet、CelebA、fastMRI）上得到验证，尚不清楚它们能否泛化至MMDiT等新型架构或超大规模模型（如视频扩散模型）。LESA [1]虽展示了在文生图与文生视频模型间的泛化能力，但这属于特例而非普遍现象。其次，蒸馏与学习型预测器的训练成本相当可观：Flash Diffusion [11]需要"数GPU小时"，而LESA [1]采用两阶段训练。对于算力有限的从业者而言，DeepCache [8]或PNDMs [7]等免训练方法更具可行性。第三，"免费午餐"问题：能否在加速的同时保持质量无损？证据表明不能——所有方法在极高加速比下均存在质量退化。例如，DeepCache [8]在4.1倍加速时FID值上升0.22，LESA [1]在5倍加速时质量下降1.0%。多级欧拉-丸山方法 [10]虽能实现多项式级加速（在CelebA 64×64上最高达4倍），但需训练多个规模递增的UNet，这对所有用户而言未必实用。简言之，最佳方法取决于你的具体权衡优先级：追求极致速度、最小质量损失，还是最低训练成本。

本文引用的文献

LESA：面向扩散模型加速的可学习阶段感知预测器

LESA采用可学习的阶段感知预测器（基于KAN）来缓存特征，在FLUX.1-dev上实现了5倍加速，质量仅下降1.0%；在Qwen-Image上相比TaylorSeer实现了6.25倍加速，质量提升20.2%。

2026 · Peiliang Cai, Jiacheng Liu, Haowen Xu, Xinyu Wang, Chang Zou, Linfeng Zhang · arXiv (Cornell University)

WisPaper

原文

用于加速磁共振成像的高频空间扩散模型

HFS-SDE将扩散过程限制在高频k空间，以实现加速磁共振成像，在提升采样速度的同时，提高了重建的准确性和稳定性。

2024 · Chentao Cao, Zhuo-Xu Cui, Yue Wang, Shaonan Liu, Taijin Chen, Hairong Zheng, Dong Liang, Yanjie Zhu · IEEE transactions on medical imaging

原文

关于引导扩散模型的蒸馏

将无分类器引导扩散蒸馏为单一模型，可实现1-4步采样，在像素空间模型上速度提升高达256倍，在潜在空间模型（如Stable Diffusion）上至少提升10倍。

2023 · Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans · CVPR

原文

用于加速MRI重建的快速无条件扩散模型。

FDMR将去噪扩散生成对抗网络的对抗训练与三阶段推理框架相结合，实现了4–10倍的MRI重建加速（每幅图像8秒），且精度更优。

2025 · Guijiao Zhao, Chen Zhou, Jianxing Liu, Yue Hu, Peng Li · Magnetic resonance imaging

原文

面向更精确的扩散模型加速：一种时间步调节器

时间步调谐器在每个去噪步骤中调整积分方向，在仅使用10步的情况下应用于DDIM时，将LSUN Bedroom上的FID从9.65提升至6.07。

2024 · Mengfei Xia, Yujun Shen, Changsong Lei, Yu Zhou, Deli Zhao, Ran Yi, Wenping Wang, Yong-Jin Liu · CVPR

原文

加速扩散：面向任务优化的潜在扩散模型用于快速CT去噪。

将潜在扩散模型与冷扩散过程相结合用于CT去噪，实现了2倍更快的训练速度和14倍更快的采样速度，同时在PSNR、SSIM和RMSE指标上均优于DDPM。

2025 · Jongmin Jee, Won Chang, Euyoung Kim, Kyongjoon Lee · Computers in biology and medicine

原文

流形上扩散模型的伪数值方法

伪数值方法（PNDMs）将扩散过程视为在流形上求解常微分方程，仅需50步即可生成比DDIM在1000步时更高质量的图像（实现20倍加速），且相比DDIM在250步时的表现，FID指标提升约0.4。

2022 · Luping Liu, Yi Ren, Zhijie Lin, Zhou Zhao · International Conference on Learning Representations

原文

DeepCache：免费加速扩散模型

DeepCache 在去噪步骤间缓存并复用 U-Net 的高层特征，在仅降低 0.05 CLIP 分数的情况下，为 Stable Diffusion v1.5 实现了 2.3 倍的加速；对于 LDM-4-G，则在 FID 仅增加 0.22 的条件下，实现了 4.1 倍的加速。

2024 · Xinyin Ma, Gongfan Fang, Xinchao Wang · CVPR

原文

利用潜在扩散模型加速采样速度并提升文本生成质量

LaDiffuSeq在低维潜在空间中进行扩散以生成文本，采样速度提升至四倍，同时在真实数据集上，BERTScore最高提升0.105，困惑度最多降低4.562。

2024 · Chenyang Li, Long Zhang, Qiusheng Zheng · Electronics

原文

使用多层级欧拉-丸山方法实现扩散模型中的多项式加速

多层级欧拉-丸山方法通过使用尺寸递增的UNet，仅需对最大、最精确的UNet进行少量评估，即可实现多项式加速（在CelebA 64×64上最高可达4倍）。

2026 · Arthur Jacot · arXiv (Cornell University)

WisPaper

原文

Flash Diffusion：加速任意条件扩散模型实现少步图像生成

Flash Diffusion 可将任意条件扩散模型（UNet、DiT、MMDiT）蒸馏为少步生成器，仅需数小时GPU训练，即在COCO数据集上实现当前最优的FID与CLIP-Score。

2025 · Clément Chadebec, Onur Tasar, Eyal Benaroche, Benjamin Aubin · AAAI

原文

SPIRiT-Diffusion：基于自一致性驱动的扩散模型用于加速磁共振成像。

SPIRiT-Diffusion 设计了一种基于k空间自一致性的模型驱动随机微分方程（SDE），用于磁共振成像（MRI），在10倍加速下实现了高质量重建，性能优于图像域方法。

2025 · Zhuo-Xu Cui, Chentao Cao, Yue Wang, Sen Jia, Jing Cheng, Xin Liu, Hairong Zheng, Dong Liang, Yanjie Zhu · IEEE transactions on medical imaging

原文