本文提出了 DiverseDiT,这是一种旨在增强扩散 Transformer (DiT) 内部表征多样性的新型框架。通过长跳跃残差连接和专门设计的表征多样性损失函数,DiverseDiT 在 ImageNet 图像合成任务上显著提升了性能并加速了收敛。
TL;DR
扩散 Transformer (DiT) 正引领视觉合成的浪潮,但如何高效地训练这些庞然大物仍是难题。DiverseDiT 提出了一种深刻的观察:DiT 模型的性能与其内部各层(Blocks)之间表征的多样性呈正相关。作者抛弃了过度依赖外部大模型的重度对齐方案,通过长残差连接和多样性损失函数,在显著降低训练资源的同时,刷新了 ImageNet 多项任务的 SOTA 记录。
1. 深度洞察:为什么简单的对齐不是终点?
在过去的研究(如 REPA)中,研究者倾向于将 DiT 的中间层特征与预训练的分类器(如 DINOv2)进行对齐。虽然有效,但作者通过 CKA (Centered Kernel Alignment) 分析发现了一个反直觉的现象:
- 表征分化是进步的标志:随着训练进行,DiT 各层之间的相似度自然下降,各层开始“各司其职”。
- 外部对齐的本质:REPA 有效是因为它强迫被对齐的层变得特殊,从而增加了多样性。
- 对齐的陷阱:对过多的层进行对齐或使用多个异构编码器,反而会因为约束冲突导致性能下降(FID 反而上升)。
图 1:DiverseDiT 与传统对齐方法的逻辑差异
2. 核心方法论:DiverseDiT 的双轮驱动
为了显式地诱导这种“多样性”,DiverseDiT 引入了两个核心组件:
2.1 长程残差连接 (Long Residual Connections)
传统的 DiT 输入是同质化的(仅接收前一层输出)。DiverseDiT 将前 $i$ 层的输出通过线性投影直接注入到后 $L-i$ 层。
- 物理直觉:通过“喂入”不同阶段的特征,强制打破各层输入的同质性,促进特征重用并防止深层的表征塌陷。
2.2 表征多样性损失 (Representation Diversity Loss)
作者设计了一个三位一体的损失函数 $\mathcal{L}_{div}$,从不同维度“推开”各层的表征空间:
- 正交性 (Orthogonality):强制不同块的均值特征向量在空间上正交。
- 互信息最小化 (MI Minimization):使用余弦相似度作为代理,减少不同块特征之间的统计相关性。
- 特征分散 (Feature Dispersion):最大化通道激活的方差,确保模型充分利用高维空间的每个维度。
图 2:DiverseDiT 的详细架构示意图
3. 实验战绩:效率与质量的双重飞跃
3.1 训练加速:以一当十
DiverseDiT 的表现令人惊艳。在 ImageNet 256x256 上,该模型仅需 200 个 Epoch 的表现(FID 1.52)就全面碾压了训练 1400 个 Epoch 的原始 SiT-XL/2(FID 2.06)。这种接近 7倍 的收敛加速,对于算力受限的任务具有极高的实用价值。
3.2 SOTA 对比
在极具挑战性的一步生成 (One-step Generation) 任务中,DiverseDiT 配合 MeanFlow 架构,在 XL 尺度上达到了 2.99 FID,刷新了单步生成的性能高度。
表 1:不同规模下 DiverseDiT 带来的显著提升
4. 总结与深度展望
DiverseDiT 的成功,标志着扩散模型的研究正在从“暴力堆料(更多数据、更强对齐)”转向“理解架构内部动态”。它告诉我们:
- Inductive Bias(归纳偏置)依然重要:通过结构化的残差连接和损失引导,可以诱导出比外部监督更纯粹的特征。
- 模块化兼容性:它是一个“插件级”的新范式,可以无缝集成到 SiT、REPA 或 MeanFlow 等现有 SOTA 模型中。
局限性:虽然在 ImageNet 上大获全胜,但这种多样性约束在处理超大规模视频数据(内容冗余度高)时,是否需要进行时间维度的自适应调整?这值得未来进一步调研。
关键词:Diffusion Transformer, Representation Learning, Diversity Loss, Image Synthesis, SOTA.
