本文揭示了扩散概率模型(DPM)中普遍存在的 SNR-t 偏差现象,并提出了一种名为 DCW(小波域微分修正)的免训练、插件式方法。该方法通过在小波域对采样轨迹进行动态修正,显著提升了包括 FLUX, EDM 在内的多种 SOTA 模型的生成质量。
TL;DR
本文深入剖析了扩散模型(DPM)在采样阶段的一个核心病灶:SNR-t 偏差。作者发现,推理时的样本 SNR 往往由于误差累积而无法与时间步匹配,导致模型“步调不一”。为此,作者提出了小波域微分修正(DCW),无需重新训练,通过微分信号在小波频段进行动态引导。实验证明,该方法能显著改善从轻量级 IDDPM 到巨量级 FLUX 模型的细节缺失和曝光问题,计算耗时增加不足 1%。
1. 痛点深挖:消失的信噪比
在扩散模型的训练期,给定时间步 , 的信噪比(SNR)是严格确定的。然而,在推理阶段,这种“契约”被打破了。
作者通过“滑动窗口”实验发现了两个关键事实:
- 预测不准:当网络在时间步 接收到一个 SNR 实际上匹配 () 的样本时,预测出的噪声会产生巨大的偏差。
- SNR 偏低:受限于数值求解器的离散化误差,反向去噪过程中的样本 SNR 普遍低于正向扩散时的理想水平。
这种 SNR 的错位(SNR-t Bias)是导致生成图像出现伪影、细节平滑、甚至颜色失真的深层诱因,比以往讨论的 Exposure Bias 更为基础。

2. 核心直觉:微分信号的向导作用
如果轨迹偏了,怎么把它拉回来?
作者发现,在每一个去噪步骤中,模型都会生成一个预测的原始样本 。通过复杂的数学推导(基于修正的 Tweedie 公式),作者证明了当前预测样本与重建样本之间的差值信号,蕴含了指向理想采样路径的梯度信息。
像素空间到小波域的跨越
简单的像素级修正会受到噪声干扰。作者引入了 Discrete Wavelet Transform (DWT)。这背后的物理直觉非常精妙:扩散模型在采样初期主要构建低频轮廓,后期才修饰高频细节。
- 低频修正 ():在采样早期赋予大权重,确保构图稳定。
- 高频修正 ():在采样后期增加权重,精雕细琢纹理。

3. 实验战绩:全线 SOTA 提升
DCW 展示了其强大的普适性。在 13 NFE(神经功能评估次数)下,它使 EDM 的 FID 从 10.66 降至 5.67。对于目前最强的开源模型之一 FLUX,DCW 修复了其在低步采样时的“过曝光”症结。

在消融实验中,作者验证了频域分解的必要性(Tab. 6):
- 仅在像素空间修正(DC)能带来提升,但不如同时处理高低频(DCW)。
- 计算开销:由于 DWT 操作极快且无需额外调用神经网络,DCW 引入的延迟在实际应用中几乎可以忽略不计。
4. 深度洞察与总结
DCW 的成功告诉我们,生成式 AI 的采样过程不仅是寻找概率分布的路径,更是一场关于精密对齐的博弈。通过阐明 SNR 与时间步之间的微妙关系,研究者能够通过轻量级的代数修正,补齐生成质量的最后一块拼图。
局限性:虽然文中给出了参数 的搜索策略,但对于不同类型的生成任务(如视频或跨模态),最优的频段权重分配可能仍需经验微调。未来,自适应的 SNR 补偿机制将是一个值得挖掘的方向。
