DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

[Arxiv 2024] DiverseDiT：揭秘扩散 Transformer 的表征动态，以多样性突破 SOTA

总结

问题

方法

结果

要点

摘要

本文提出了 DiverseDiT，这是一种旨在增强扩散 Transformer (DiT) 内部表征多样性的新型框架。通过长跳跃残差连接和专门设计的表征多样性损失函数，DiverseDiT 在 ImageNet 图像合成任务上显著提升了性能并加速了收敛。

TL;DR

扩散 Transformer (DiT) 正引领视觉合成的浪潮，但如何高效地训练这些庞然大物仍是难题。DiverseDiT 提出了一种深刻的观察：DiT 模型的性能与其内部各层（Blocks）之间表征的多样性呈正相关。作者抛弃了过度依赖外部大模型的重度对齐方案，通过长残差连接和多样性损失函数，在显著降低训练资源的同时，刷新了 ImageNet 多项任务的 SOTA 记录。

1. 深度洞察：为什么简单的对齐不是终点？

在过去的研究（如 REPA）中，研究者倾向于将 DiT 的中间层特征与预训练的分类器（如 DINOv2）进行对齐。虽然有效，但作者通过 CKA (Centered Kernel Alignment) 分析发现了一个反直觉的现象：

表征分化是进步的标志：随着训练进行，DiT 各层之间的相似度自然下降，各层开始“各司其职”。
外部对齐的本质：REPA 有效是因为它强迫被对齐的层变得特殊，从而增加了多样性。
对齐的陷阱：对过多的层进行对齐或使用多个异构编码器，反而会因为约束冲突导致性能下降（FID 反而上升）。

表征分析与方法对比 图 1：DiverseDiT 与传统对齐方法的逻辑差异

2. 核心方法论：DiverseDiT 的双轮驱动

为了显式地诱导这种“多样性”，DiverseDiT 引入了两个核心组件：

2.1 长程残差连接 (Long Residual Connections)

传统的 DiT 输入是同质化的（仅接收前一层输出）。DiverseDiT 将前 $i$ 层的输出通过线性投影直接注入到后 $L-i$ 层。

物理直觉：通过“喂入”不同阶段的特征，强制打破各层输入的同质性，促进特征重用并防止深层的表征塌陷。

2.2 表征多样性损失 (Representation Diversity Loss)

作者设计了一个三位一体的损失函数 $\mathcal{L}_{div}$，从不同维度“推开”各层的表征空间：

正交性 (Orthogonality)：强制不同块的均值特征向量在空间上正交。
互信息最小化 (MI Minimization)：使用余弦相似度作为代理，减少不同块特征之间的统计相关性。
特征分散 (Feature Dispersion)：最大化通道激活的方差，确保模型充分利用高维空间的每个维度。

模型架构图 图 2：DiverseDiT 的详细架构示意图

3. 实验战绩：效率与质量的双重飞跃

3.1 训练加速：以一当十

DiverseDiT 的表现令人惊艳。在 ImageNet 256x256 上，该模型仅需 200 个 Epoch 的表现（FID 1.52）就全面碾压了训练 1400 个 Epoch 的原始 SiT-XL/2（FID 2.06）。这种接近 7倍的收敛加速，对于算力受限的任务具有极高的实用价值。

3.2 SOTA 对比

在极具挑战性的一步生成 (One-step Generation) 任务中，DiverseDiT 配合 MeanFlow 架构，在 XL 尺度上达到了 2.99 FID，刷新了单步生成的性能高度。

实验结果对比 表 1：不同规模下 DiverseDiT 带来的显著提升

4. 总结与深度展望

DiverseDiT 的成功，标志着扩散模型的研究正在从“暴力堆料（更多数据、更强对齐）”转向“理解架构内部动态”。它告诉我们：

Inductive Bias（归纳偏置）依然重要：通过结构化的残差连接和损失引导，可以诱导出比外部监督更纯粹的特征。
模块化兼容性：它是一个“插件级”的新范式，可以无缝集成到 SiT、REPA 或 MeanFlow 等现有 SOTA 模型中。

局限性：虽然在 ImageNet 上大获全胜，但这种多样性约束在处理超大规模视频数据（内容冗余度高）时，是否需要进行时间维度的自适应调整？这值得未来进一步调研。

关键词：Diffusion Transformer, Representation Learning, Diversity Loss, Image Synthesis, SOTA.

发现相似论文

试试这些示例

查找最近其他试图通过改进 Transformer 内部架构（如跳跃连接或参数共享）来提升权重效率或表征多样性的扩散模型论文。
哪篇论文最早在 Transformer 中讨论了表征塌陷（Representation Collapse）问题，本文提出的多样性损失与之有何理论关联？
有哪些研究尝试将 DiverseDiT 中提出的长跳跃残差结构或类似的多样性约束应用到视频生成或大语言模型的预训练中？

[Arxiv 2024] DiverseDiT：揭秘扩散 Transformer 的表征动态，以多样性突破 SOTA

1. TL;DR

2. 1. 深度洞察：为什么简单的对齐不是终点？

3. 2. 核心方法论：DiverseDiT 的双轮驱动

3.1. 2.1 长程残差连接 (Long Residual Connections)

3.2. 2.2 表征多样性损失 (Representation Diversity Loss)

4. 3. 实验战绩：效率与质量的双重飞跃

4.1. 3.1 训练加速：以一当十

4.2. 3.2 SOTA 对比

5. 4. 总结与深度展望