WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] ELT:打破内存壁垒,用 1/4 参数实现 SOTA 级视觉生成
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Elastic Looped Transformers (ELT),一种通过参数共享的循环 Transformer 架构实现的极高参数效率的视觉生成模型。该方法在 iso-inference-compute(同等推理计算量)下,比 MaskGIT 和 MAGVIT 等基线模型减少了 4 倍参数,并在 ImageNet (FID 2.0) 和 UCF-101 (FVD 72.8) 任务中达到了 SOTA 性能。

TL;DR

在视觉生成领域,模型深度往往与参数量成正比,这导致了巨大的内存开销。Elastic Looped Transformers (ELT) 的出现改写了这一逻辑。通过将 Transformer 层进行“循环式”权重共享,并通过创新的环内自蒸馏 (ILSD) 算法,ELT 不仅将参数量降低了 75%,还实现了“随时推理”:同一个模型,你可以根据算力水平选择跑 2 遍还是 8 遍循环,且都能获得连贯的生成结果。

核心定位

ELT 是对当前视觉生成模型(如 DiT, MaskGIT)的一次底层架构级重构,它定位在极端参数效率弹性计算的交叉点。它不是通过剪枝或量化这种事后手段,而是从架构设计和训练目标入手,让模型学会“反复精炼”特征。

痛点深挖:为何我们需要循环架构?

现有的生成模型(如 Stable Diffusion 3 或 Sora 基座)面临两个核心瓶颈:

  1. 内存墙 (Memory Wall):每一层唯一的权重都需要频繁地从内存加载到计算单元,即便计算量相同,庞大的参数量也拖慢了吞吐量。
  2. 刚性推理:模型深度在训练后固定。如果资源受限,你很难在不重训练的情况下让一个 32 层的模型只跑 16 层。

传统的循环 Transformer 虽然能省参数,但存在收敛滞后问题:只有跑完最后一圈,图像才是清晰的。

模型架构对比:标准循环 vs ELT 图 2:普通循环模型(左)中间态不可视,而 ELT(右)通过 ILSD 保证了中间循环的表征也是高质量的。

方法论详解:如何实现“弹性”?

1. 权重共享的循环块 (Recurrent Blocks)

ELT 不再堆叠 24 个唯一的层,而是定义一个包含 层的复合块 ,然后将其循环应用 次。总深度依然是 ,但存储开销仅为 层。

2. 环内自蒸馏 (ILSD)

这是 ELT 最核心的贡献。为了让模型在每一圈循环后都有实质性产出,作者提出了 ILSD:

  • 教师路径:运行完整的 次循环,作为目标。
  • 学生路径:随机采样中间循环次数 ,不仅要拟合真实标签(Ground Truth),还要模拟“教师”在终点产生的表征。
  • 课程学习:训练初期以 GT 为主,后期逐渐转为模仿教师,确保学生层能压缩教师的复杂变换。

ELT 总体设计架构 图 3:ELT 框架概览。左侧展示了训练时的双路径自蒸馏,右侧展示了推理时的“随时退出”机制。

实验与结果:小参数也有大作为

SOTA 战绩

在 ImageNet 256x256 任务中,ELT-XL(仅 111M 参数)与拥有 446M 参数的 MaskGIT-XL 达到了相同的 FID 2.0。在视频生成任务(UCF-101)上,原本 306M 参数的模型缩减至 76M 时,性能甚至更好(FVD 从 76 提升至 72.8),这表明循环架构在小规模数据上具有更强的正则化/抗过拟合能力。

吞吐量飞跃

由于核心权重集更小,可以完全驻留在芯片级缓存(On-chip Memory)中,大幅减少了数据传输。实验显示,在 TPU 上 ELT 的吞吐量比基线高出 2.9x 到 3.5x

Pareto Front 对比 图 4:FID 与 GFLOPs 的帕累托前沿。ELT 完美覆盖了从超快推理到高质量生成的全曲线。

深度洞察:Any-Time 推理的未来

ELT 带来了一个非常实用的启示:对于扩散模型(Diffusion)或掩码生成模型(Masked Generative),计算量(FLOPs)不一定要与参数量绑定

在实际部署中:

  • 移动设备:可以只跑 2 次循环,快速生成低质量预览。
  • 云端渲染:针对同一模型跑 8 次循环,输出精细大图。
  • 一阶段生成:对于 Consistency Models 等单步生成模型,循环次数成为了唯一调节质量的动态杠杆。

局限性与总结

尽管 ELT 效率惊人,但作者也指出,循环层不能无限少(如 效果不佳),必须保证基础块有足够的表征深度。

总的来说,ELT 为视觉生成模型的工程化落地指明了新路径:不再一味追求“大模型”,而是通过“更聪明的循环”在轻量级设备上释放出 SOTA 级的表现力。这不仅是学术上的创新,更是向高效、绿色 AI 迈出的重要一步。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用循环神经网络(Recurrent)或权重共享(Weight-sharing)机制来压缩 Diffusion Transformer (DiT) 参数的研究论文。
  • 哪篇论文最早在 Transformer 中提出了 Universal Transformers 或循环机制,ELT 的“环内自蒸馏 (ILSD)”与其有何本质区别?
  • 探讨将 ELT 的这种随时推理(Any-Time Inference)能力应用到大语言模型 (LLM) 推理加速或视频实时生成领域的最新进展。
Contents
[CVPR 2026] ELT:打破内存壁垒,用 1/4 参数实现 SOTA 级视觉生成
1. TL;DR
2. 核心定位
3. 痛点深挖:为何我们需要循环架构?
4. 方法论详解:如何实现“弹性”?
4.1. 1. 权重共享的循环块 (Recurrent Blocks)
4.2. 2. 环内自蒸馏 (ILSD)
5. 实验与结果:小参数也有大作为
5.1. SOTA 战绩
5.2. 吞吐量飞跃
6. 深度洞察:Any-Time 推理的未来
7. 局限性与总结