本文推出了 ViTok-v2,一种基于 Vision Transformer (ViT) 的超大规模图像自编码器(Tokenizer),参数量首次扩展至 50 亿。该模型采用非对称架构、NaFlex 训练协议及创新的 DINOv3 感知损失,实现了在任意分辨率下的原生支持,并在图像重建与生成任务中达到了 SOTA 水平。
TL;DR
在视觉生成领域,自编码器(AE)作为将像素压缩至潜在空间的“翻译官”,其性能直接决定了生成的上限。ViTok-v2 成功将 ViT Tokenizer 的参数量推向了 50 亿级的巅峰。它通过 DINOv3 感知损失 解决了扩展性不稳定的顽疾,并凭借 NaFlex 协议打破了分辨率的束缚。实验证明,ViTok-v2 在 2048p 下的重建质量超越了所有 CNN 和 ViT 基线,且支持 8K 图像的超快处理,彻底解决了大模型在超高清图像处理上的 OOM 痛点。
痛点深挖:为什么 Tokenizer 难以 Scaling?
尽管 Transformer 在各种视觉任务中大放异彩,但在自编码器领域,工业界仍倾向于使用 CNN(如 SDXL/FLUX 的 VAE)。原因有二:
- 分辨率僵化:ViT 强依赖于位置编码,一旦输入尺寸偏离训练时的 256x256,就会产生断裂的网格伪影(Grid Artifacts)。
- 训练不稳定性:为了让重建图像不“模糊”,研究者通常加入 GAN 损失。然而,在高参数量下,GAN 极易导致模式崩塌或梯度爆炸。
ViTok-v2 的直觉非常明确:用更强的解码器容量去“对冲”压缩损失,用自监督深度特征替代不稳定的对抗训练。
方法论详解:ViTok-v2 的三大杀手锏
1. 非对称架构与 5B 参数扩展
作者发现,“编轻解重”是最优解。ViTok-v2 的编码器非常浅(仅 4 层),而解码器则扩展到了 40 层,参数量覆盖 88M 到 4.5B。这种设计让模型在保持极低延迟的同时,具有超强的解码纠错能力。
(注:此处应为由浅层 Encoder 和深层 Transformer Decoder 组成的架构图)
2. DINOv3 感知切片损失 (The GAN-Killer)
这是本文的核心突破。作者引入了 DINOv3 Perceptual Tile Loss。不同于传统的 LPIPS(基于过时的 VGG 网络),DINOv3 捕捉的是具有高度空间对应关系的语义特征。通过在原图和重建图的相同位置随机采样 224x224 的切片并对比特征,ViTok-v2 实现了比 GAN 更稳定、比 LPIPS 更细腻的细节重现。
3. NaFlex:告别网格伪影
为了实现真正的原生分辨率支持,模型采用了两阶段 NaFlex 训练:
- 前 90% 时间在 256 词元预算下训练变比例裁剪;
- 后 10% 时间将预算提升至 1024 词元。 配合 2D RoPE 和推理时的滑动窗口注意力 (SWA),模型在处理 4K 甚至 8K 图像时表现得游刃有余。
实验与结果:统治级的性能
SOTA 重建表现
在 1024p 和 2048p 的高分辨率测试(DIV8K 数据集)中,ViTok-v2 展现了统治级优势。其 PSNR 比 FLUX.2 高出约 3 dB。
(注:此处应为 ViTok-v2 在不同分辨率下 PSNR 和 rFID 的对比曲线图)
显存效率的飞跃
CNN 基线模型在处理 4K 图像时往往需要超过 60 秒,甚至在 8K 时直接显存溢出。由于 SWA 的线性复杂度特征,ViTok-v2 处理 4K 仅需 1.2 秒,且能稳定输出 8K 图像。
深度洞察:大 AE 真的能带飞生成模型吗?
一个有趣的发现是:即使是在相同的重建指标(rFID)下,5B 规模的自编码器提供的潜在表征,能显著降低下游扩散模型(Flow Model)的生成噪声。这意味着 Scaling Tokenizer 本身就是一种“免费”的质量提升手段。
总结与展望
ViTok-v2 的出现标志着视觉自编码器正式进入“全 Transformer + 大规模自监督感知损失”的时代。
- 贡献:解决了 ViT Tokenizer 的分辨率泛化问题,证明了 GAN 并非高清重建的必选项。
- 局限性:尽管推理阶段有 SWA,但 5B 参数的解码器依然存在一定的静态计算开销。
- 启发:未来的多模态大模型(LMM)或许应当直接集成这种大参数量的原生自编码器,以实现像素级和语义级的深度统一。
