本文提出了 Spectrally-Guided Diffusion Noise Schedules,一种根据图像频谱特性为每个样本定制扩散噪声计划的方法。该方法通过径向平均功率谱密度(RAPSD)动态调整噪声水平,显着提升了单阶段像素扩散模型在 low-step 制度下的生成质量。
TL;DR
传统的扩散模型对所有图像都采用“一刀切”的噪声计划(Noise Schedules),这就像给所有病人开同样的药方。本文提出了频谱引导扩散噪声调度(Spectrally-Guided Diffusion Noise Schedules)。其核心逻辑是:根据每张图像的功率谱特性,为其量身定制一套“紧致”的噪声曲线。实验结果表明,该方法在不依赖蒸馏的情况下,大幅提升了单阶段像素扩散模型在低步数采样下的表现。
背景定位
目前生成模型领域由隐扩散模型(LDM)主导,但 LDM 依赖于预训练的分词器空间,上限受限。像素级扩散模型虽潜力大,但采样步数通常比 LDM 多一个数量级。本文通过对频率分布的深入洞察,试图打破像素扩散模型的效率瓶颈,属于对扩散模型底层物理机制(噪声动力学)的深度优化。
痛点深挖:无效的噪声步
在标准的 Cosine 调度中,对于低频能量弱的图,可能在 时信号就已彻底消失;而对于高频能量强的图,在 时噪声几乎没有产生任何改变。这意味着训练和推理中大量的步骤处于“无效区”。
作者认为:噪声应该是频率的函数。由于自然图像的频谱普遍遵循功率谱密度(Power Law),高分辨率图像相比低分辨率具有更多的低频能量,因此需要更强的噪声来抵消。
核心方法论:从频谱到调度
作者通过数学推导,确立了如何利用径向平均功率谱密度(RAPSD)来定义“紧致”调度。
1. 理论界限 (Minimum & Maximum Noise)
作者推导了两个关键界限:
- :确保最大噪声级能刚好把最低频的信号彻底破坏(接近纯高斯噪声)。
- :确保最小噪声级能刚好保留最高频的微小细节。
2. 三种调度模式
- Frequency-focused (频率聚焦):线性映射频率,使得模型对细碎纹理关注度更高。
- Power-focused (功率聚焦):按能量分布采样,更关注图像的宏观结构。
- Mixed (混合调度):本文最终采用的方案,平衡了结构与细节。
图 2 展示了不同分辨率下的中值功率谱(左)以及为不同图像生成的个性化调度曲线(中、右)。
3. RAPSD 采样器
在推理阶段,由于没有原图,作者训练了一个轻量级的 GMM(高斯混合模型)采样器。它可以根据类别标签(如“金毛猎犬”)预测出该类图像可能的频谱参数 和 ,从而实时生成调度曲线。
实验战绩与 SOTA 对比
在 ImageNet 各个分辨率的基准测试中,该方法展现了极强的“步数压缩”能力。
- 性能跨越:在 256x256 分辨率下,新方法 256 步的效果优于基线 SiD2 512 步的效果。
- 低步数优势:当采样步数减少到 32 或 64 步时,基线模型的生成图像会出现明显的伪影或细节丢失,而频谱引导模型依然保持了极高的视觉保真度。
图 3 动态展示了随着采样步数(NFE)减少,新方法(紫色曲线)相比基线(灰色曲线)表现出更强的鲁棒性。
深度洞察:可控生成的副产品
由于模型能够理解频谱参数,作者发现可以通过手动干预生成的频谱来控制图像属性。例如,在生成的过程中人为调大高频能量参数,可以显着增加图像的纹理细节和对比度,而无需更改模型权重或提示词。
图 5 演示了通过调整频谱能量因子,图像细节从模糊到锐化的渐变过程。
总结与展望
Spectrally-Guided Schedules 成功地将图像生成的物理直觉(频谱分布)转化为严谨的数学调度。尽管在极大步数下效率优势略有收窄,但在追求“快而美”的实时生成时代,这种能够显著压低采样步数的方法具有极高的工程价值。
局限性:该方法目前主要针对像素空间。如果未来能将此逻辑移植到 Latent Space 或 Rectified Flow 模型中,或许能真正实现只需 1-4 步的高质量非蒸馏生成。
