ELT: Elastic Looped Transformers for Visual Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ELT: Elastic Looped Transformers for Visual Generation

[CVPR 2026] ELT：打破内存壁垒，用 1/4 参数实现 SOTA 级视觉生成

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Elastic Looped Transformers (ELT)，一种通过参数共享的循环 Transformer 架构实现的极高参数效率的视觉生成模型。该方法在 iso-inference-compute（同等推理计算量）下，比 MaskGIT 和 MAGVIT 等基线模型减少了 4 倍参数，并在 ImageNet (FID 2.0) 和 UCF-101 (FVD 72.8) 任务中达到了 SOTA 性能。

TL;DR

在视觉生成领域，模型深度往往与参数量成正比，这导致了巨大的内存开销。Elastic Looped Transformers (ELT) 的出现改写了这一逻辑。通过将 Transformer 层进行“循环式”权重共享，并通过创新的环内自蒸馏 (ILSD) 算法，ELT 不仅将参数量降低了 75%，还实现了“随时推理”：同一个模型，你可以根据算力水平选择跑 2 遍还是 8 遍循环，且都能获得连贯的生成结果。

核心定位

ELT 是对当前视觉生成模型（如 DiT, MaskGIT）的一次底层架构级重构，它定位在极端参数效率与弹性计算的交叉点。它不是通过剪枝或量化这种事后手段，而是从架构设计和训练目标入手，让模型学会“反复精炼”特征。

痛点深挖：为何我们需要循环架构？

现有的生成模型（如 Stable Diffusion 3 或 Sora 基座）面临两个核心瓶颈：

内存墙 (Memory Wall)：每一层唯一的权重都需要频繁地从内存加载到计算单元，即便计算量相同，庞大的参数量也拖慢了吞吐量。
刚性推理：模型深度在训练后固定。如果资源受限，你很难在不重训练的情况下让一个 32 层的模型只跑 16 层。

传统的循环 Transformer 虽然能省参数，但存在收敛滞后问题：只有跑完最后一圈，图像才是清晰的。

模型架构对比：标准循环 vs ELT 图 2：普通循环模型（左）中间态不可视，而 ELT（右）通过 ILSD 保证了中间循环的表征也是高质量的。

方法论详解：如何实现“弹性”？

1. 权重共享的循环块 (Recurrent Blocks)

ELT 不再堆叠 24 个唯一的层，而是定义一个包含 $N$ 层的复合块 $g_{Θ}$ ，然后将其循环应用 $L$ 次。总深度依然是 $D = N im es L$ ，但存储开销仅为 $N$ 层。

2. 环内自蒸馏 (ILSD)

这是 ELT 最核心的贡献。为了让模型在每一圈循环后都有实质性产出，作者提出了 ILSD：

教师路径：运行完整的 $L_{ma x}$ 次循环，作为目标。
学生路径：随机采样中间循环次数 $L_{in t}$ ，不仅要拟合真实标签（Ground Truth），还要模拟“教师”在终点产生的表征。
课程学习：训练初期以 GT 为主，后期逐渐转为模仿教师，确保学生层能压缩教师的复杂变换。

ELT 总体设计架构 图 3：ELT 框架概览。左侧展示了训练时的双路径自蒸馏，右侧展示了推理时的“随时退出”机制。

实验与结果：小参数也有大作为

SOTA 战绩

在 ImageNet 256x256 任务中，ELT-XL（仅 111M 参数）与拥有 446M 参数的 MaskGIT-XL 达到了相同的 FID 2.0。在视频生成任务（UCF-101）上，原本 306M 参数的模型缩减至 76M 时，性能甚至更好（FVD 从 76 提升至 72.8），这表明循环架构在小规模数据上具有更强的正则化/抗过拟合能力。

吞吐量飞跃

由于核心权重集更小，可以完全驻留在芯片级缓存（On-chip Memory）中，大幅减少了数据传输。实验显示，在 TPU 上 ELT 的吞吐量比基线高出 2.9x 到 3.5x。

Pareto Front 对比 图 4：FID 与 GFLOPs 的帕累托前沿。ELT 完美覆盖了从超快推理到高质量生成的全曲线。

深度洞察：Any-Time 推理的未来

ELT 带来了一个非常实用的启示：对于扩散模型（Diffusion）或掩码生成模型（Masked Generative），计算量（FLOPs）不一定要与参数量绑定。

在实际部署中：

移动设备：可以只跑 2 次循环，快速生成低质量预览。
云端渲染：针对同一模型跑 8 次循环，输出精细大图。
一阶段生成：对于 Consistency Models 等单步生成模型，循环次数成为了唯一调节质量的动态杠杆。

局限性与总结

尽管 ELT 效率惊人，但作者也指出，循环层不能无限少（如 $1 N$ 效果不佳），必须保证基础块有足够的表征深度。

总的来说，ELT 为视觉生成模型的工程化落地指明了新路径：不再一味追求“大模型”，而是通过“更聪明的循环”在轻量级设备上释放出 SOTA 级的表现力。这不仅是学术上的创新，更是向高效、绿色 AI 迈出的重要一步。

Find Similar Papers

Try Our Examples

查找最近其他利用循环神经网络（Recurrent）或权重共享（Weight-sharing）机制来压缩 Diffusion Transformer (DiT) 参数的研究论文。
哪篇论文最早在 Transformer 中提出了 Universal Transformers 或循环机制，ELT 的“环内自蒸馏 (ILSD)”与其有何本质区别？
探讨将 ELT 的这种随时推理（Any-Time Inference）能力应用到大语言模型 (LLM) 推理加速或视频实时生成领域的最新进展。

Contents

[CVPR 2026] ELT：打破内存壁垒，用 1/4 参数实现 SOTA 级视觉生成

1. TL;DR

2. 核心定位

3. 痛点深挖：为何我们需要循环架构？

4. 方法论详解：如何实现“弹性”？

4.1. 1. 权重共享的循环块 (Recurrent Blocks)

4.2. 2. 环内自蒸馏 (ILSD)

5. 实验与结果：小参数也有大作为

5.1. SOTA 战绩

5.2. 吞吐量飞跃

6. 深度洞察：Any-Time 推理的未来

7. 局限性与总结