核心权衡:在不损害图像质量的前提下,能提升多少速度?
扩散模型的每一种加速方法都面临同样的根本矛盾:采样步数越少(或每步计算越轻量),生成速度越快,但往往以输出更模糊、更嘈杂或更不连贯为代价。最优秀的方法能在大幅缩短推理时间的同时,几乎不损失质量。例如,Meng等人[3]提出的蒸馏方法,在ImageNet 64×64数据集上仅用4步采样就能生成与原始模型视觉上相当的结果,实现256倍加速,同时FID/IS分数与原始模型接近。同样,Flash Diffusion[11]在COCO数据集上以极少的GPU训练时长,达到了少步生成的最优FID和CLIP-Score。而像DeepCache[8]这类更简单的缓存方法,加速效果相对有限(Stable Diffusion v1.5上为2.3倍),但质量几乎无损(CLIP Score仅下降0.05)。结论是:若追求极致速度(如实时生成),蒸馏是首选;若必须不惜代价保质量,缓存或更优的数值求解器则更为稳妥。
四大加速方法家族及其对比
这些论文可归纳为四种不同策略。其一,蒸馏方法[3][11]通过训练更小或更快的模型,以极少的步骤模仿原始模型的输出。例如,Meng等人[3]将无分类器引导扩散蒸馏为一个仅需1-4步的模型,在Stable Diffusion等潜空间模型上实现了至少10倍的推理加速。其二,特征缓存方法[1][8]利用去噪步骤间的冗余性:DeepCache[8]在相邻步骤间复用U-Net高层特征,在LDM-4-G上实现4.1倍加速,ImageNet上FID仅增加0.22;LESA[1]则更进一步,采用可学习预测器适应不同噪声水平,在FLUX.1-dev上实现5倍加速,质量损失仅1.0%。其三,更优数值求解器[5][7]改进了底层微分方程的离散化方法。PNDMs[7]将扩散视为流形上的常微分方程求解,50步生成图像质量即超越DDIM的1000步(20倍加速);时间步调谐器[5]调整每个区间的积分方向,在LSUN卧室数据集上仅用10步便将FID从9.65降至6.07。其四,潜空间方法[6][9]在压缩表示中执行扩散过程。LaDiffuSeq[9]通过低维潜空间将文本生成采样速度提升四倍,而LDM+Cold Diffusion框架[6]通过用任务特定退化替代高斯噪声,在CT去噪任务中实现14倍采样加速。
领域专用加速:MRI与CT成像迎来定制化解决方案
医学影像对重建提出了独特的要求:既要快速,又要精准,且数据具有特殊结构(例如MRI中的k空间)。多篇论文提出了利用这种结构的方法。在加速MRI方面,HFS-SDE[2]将扩散过程限制在k空间的高频区域,确保低频(完全采样)区域保持确定性,从而加速采样并提升稳定性。FDMR[4]将对抗训练与三阶段推理框架(快速生成、早停自适应、精炼)相结合,相比标准扩散模型实现了4–10倍的加速,仅需8秒即可重建一幅图像。SPIRiT-Diffusion[12]基于k空间插值的物理原理设计了定制化的随机微分方程,在10倍加速下实现了高质量重建。在CT去噪方面,LDM+Cold Diffusion框架[6]通过在潜在空间中工作并使用任务特定的退化替代高斯噪声,实现了比标准DDPM快14倍的采样速度。这些领域特定方法往往优于通用加速技术,因为它们融入了关于测量过程的先验知识。
证据尚未解决的问题:泛化能力、训练成本与“免费午餐”问题
尽管已有令人瞩目的成果,但仍存在若干待解问题。首先,多数方法仅在特定模型架构(如U-Net、DiT)和数据集(如ImageNet、CelebA、fastMRI)上得到验证,尚不清楚它们能否泛化至MMDiT等新型架构或超大规模模型(如视频扩散模型)。LESA [1]虽展示了在文生图与文生视频模型间的泛化能力,但这属于特例而非普遍现象。其次,蒸馏与学习型预测器的训练成本相当可观:Flash Diffusion [11]需要"数GPU小时",而LESA [1]采用两阶段训练。对于算力有限的从业者而言,DeepCache [8]或PNDMs [7]等免训练方法更具可行性。第三,"免费午餐"问题:能否在加速的同时保持质量无损?证据表明不能——所有方法在极高加速比下均存在质量退化。例如,DeepCache [8]在4.1倍加速时FID值上升0.22,LESA [1]在5倍加速时质量下降1.0%。多级欧拉-丸山方法 [10]虽能实现多项式级加速(在CelebA 64×64上最高达4倍),但需训练多个规模递增的UNet,这对所有用户而言未必实用。简言之,最佳方法取决于你的具体权衡优先级:追求极致速度、最小质量损失,还是最低训练成本。
本文引用的文献
LESA:面向扩散模型加速的可学习阶段感知预测器
LESA采用可学习的阶段感知预测器(基于KAN)来缓存特征,在FLUX.1-dev上实现了5倍加速,质量仅下降1.0%;在Qwen-Image上相比TaylorSeer实现了6.25倍加速,质量提升20.2%。
用于加速磁共振成像的高频空间扩散模型
HFS-SDE将扩散过程限制在高频k空间,以实现加速磁共振成像,在提升采样速度的同时,提高了重建的准确性和稳定性。
关于引导扩散模型的蒸馏
将无分类器引导扩散蒸馏为单一模型,可实现1-4步采样,在像素空间模型上速度提升高达256倍,在潜在空间模型(如Stable Diffusion)上至少提升10倍。
用于加速MRI重建的快速无条件扩散模型。
FDMR将去噪扩散生成对抗网络的对抗训练与三阶段推理框架相结合,实现了4–10倍的MRI重建加速(每幅图像8秒),且精度更优。
面向更精确的扩散模型加速:一种时间步调节器
时间步调谐器在每个去噪步骤中调整积分方向,在仅使用10步的情况下应用于DDIM时,将LSUN Bedroom上的FID从9.65提升至6.07。
加速扩散:面向任务优化的潜在扩散模型用于快速CT去噪。
将潜在扩散模型与冷扩散过程相结合用于CT去噪,实现了2倍更快的训练速度和14倍更快的采样速度,同时在PSNR、SSIM和RMSE指标上均优于DDPM。
流形上扩散模型的伪数值方法
伪数值方法(PNDMs)将扩散过程视为在流形上求解常微分方程,仅需50步即可生成比DDIM在1000步时更高质量的图像(实现20倍加速),且相比DDIM在250步时的表现,FID指标提升约0.4。
DeepCache:免费加速扩散模型
DeepCache 在去噪步骤间缓存并复用 U-Net 的高层特征,在仅降低 0.05 CLIP 分数的情况下,为 Stable Diffusion v1.5 实现了 2.3 倍的加速;对于 LDM-4-G,则在 FID 仅增加 0.22 的条件下,实现了 4.1 倍的加速。
利用潜在扩散模型加速采样速度并提升文本生成质量
LaDiffuSeq在低维潜在空间中进行扩散以生成文本,采样速度提升至四倍,同时在真实数据集上,BERTScore最高提升0.105,困惑度最多降低4.562。
使用多层级欧拉-丸山方法实现扩散模型中的多项式加速
多层级欧拉-丸山方法通过使用尺寸递增的UNet,仅需对最大、最精确的UNet进行少量评估,即可实现多项式加速(在CelebA 64×64上最高可达4倍)。
Flash Diffusion:加速任意条件扩散模型实现少步图像生成
Flash Diffusion 可将任意条件扩散模型(UNet、DiT、MMDiT)蒸馏为少步生成器,仅需数小时GPU训练,即在COCO数据集上实现当前最优的FID与CLIP-Score。
SPIRiT-Diffusion:基于自一致性驱动的扩散模型用于加速磁共振成像。
SPIRiT-Diffusion 设计了一种基于k空间自一致性的模型驱动随机微分方程(SDE),用于磁共振成像(MRI),在10倍加速下实现了高质量重建,性能优于图像域方法。
