ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

ViTok-v2：50 亿参数开启原生高分辨率 Tokenizer 新纪元

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ViTok-v2，一种基于 Vision Transformer (ViT) 的超大规模图像自编码器（Tokenizer），参数量首次扩展至 50 亿。该模型采用非对称架构、NaFlex 训练协议及创新的 DINOv3 感知损失，实现了在任意分辨率下的原生支持，并在图像重建与生成任务中达到了 SOTA 水平。

TL;DR

在视觉生成领域，自编码器（AE）作为将像素压缩至潜在空间的“翻译官”，其性能直接决定了生成的上限。ViTok-v2 成功将 ViT Tokenizer 的参数量推向了 50 亿级的巅峰。它通过 DINOv3 感知损失 解决了扩展性不稳定的顽疾，并凭借 NaFlex 协议打破了分辨率的束缚。实验证明，ViTok-v2 在 2048p 下的重建质量超越了所有 CNN 和 ViT 基线，且支持 8K 图像的超快处理，彻底解决了大模型在超高清图像处理上的 OOM 痛点。

痛点深挖：为什么 Tokenizer 难以 Scaling？

尽管 Transformer 在各种视觉任务中大放异彩，但在自编码器领域，工业界仍倾向于使用 CNN（如 SDXL/FLUX 的 VAE）。原因有二：

分辨率僵化：ViT 强依赖于位置编码，一旦输入尺寸偏离训练时的 256x256，就会产生断裂的网格伪影（Grid Artifacts）。
训练不稳定性：为了让重建图像不“模糊”，研究者通常加入 GAN 损失。然而，在高参数量下，GAN 极易导致模式崩塌或梯度爆炸。

ViTok-v2 的直觉非常明确：用更强的解码器容量去“对冲”压缩损失，用自监督深度特征替代不稳定的对抗训练。

方法论详解：ViTok-v2 的三大杀手锏

1. 非对称架构与 5B 参数扩展

作者发现，“编轻解重”是最优解。ViTok-v2 的编码器非常浅（仅 4 层），而解码器则扩展到了 40 层，参数量覆盖 88M 到 4.5B。这种设计让模型在保持极低延迟的同时，具有超强的解码纠错能力。

模型架构图 (注：此处应为由浅层 Encoder 和深层 Transformer Decoder 组成的架构图)

2. DINOv3 感知切片损失 (The GAN-Killer)

这是本文的核心突破。作者引入了 DINOv3 Perceptual Tile Loss。不同于传统的 LPIPS（基于过时的 VGG 网络），DINOv3 捕捉的是具有高度空间对应关系的语义特征。通过在原图和重建图的相同位置随机采样 224x224 的切片并对比特征，ViTok-v2 实现了比 GAN 更稳定、比 LPIPS 更细腻的细节重现。

3. NaFlex：告别网格伪影

为了实现真正的原生分辨率支持，模型采用了两阶段 NaFlex 训练：

前 90% 时间在 256 词元预算下训练变比例裁剪；
后 10% 时间将预算提升至 1024 词元。配合 2D RoPE 和推理时的滑动窗口注意力 (SWA)，模型在处理 4K 甚至 8K 图像时表现得游刃有余。

实验与结果：统治级的性能

SOTA 重建表现

在 1024p 和 2048p 的高分辨率测试（DIV8K 数据集）中，ViTok-v2 展现了统治级优势。其 PSNR 比 FLUX.2 高出约 3 dB。

实验结果对比 (注：此处应为 ViTok-v2 在不同分辨率下 PSNR 和 rFID 的对比曲线图)

显存效率的飞跃

CNN 基线模型在处理 4K 图像时往往需要超过 60 秒，甚至在 8K 时直接显存溢出。由于 SWA 的线性复杂度特征，ViTok-v2 处理 4K 仅需 1.2 秒，且能稳定输出 8K 图像。

深度洞察：大 AE 真的能带飞生成模型吗？

一个有趣的发现是：即使是在相同的重建指标（rFID）下，5B 规模的自编码器提供的潜在表征，能显著降低下游扩散模型（Flow Model）的生成噪声。这意味着 Scaling Tokenizer 本身就是一种“免费”的质量提升手段。

总结与展望

ViTok-v2 的出现标志着视觉自编码器正式进入“全 Transformer + 大规模自监督感知损失”的时代。

贡献：解决了 ViT Tokenizer 的分辨率泛化问题，证明了 GAN 并非高清重建的必选项。
局限性：尽管推理阶段有 SWA，但 5B 参数的解码器依然存在一定的静态计算开销。
启发：未来的多模态大模型（LMM）或许应当直接集成这种大参数量的原生自编码器，以实现像素级和语义级的深度统一。

Find Similar Papers

Try Our Examples

查找最近一年内其他试图舍弃 GAN 损失并使用自监督特征（如 DINOv2 或 CLIP）进行图像 Tokenizer 训练的研究。
哪篇论文最早提出了 NaFlex 或类似的处理变比例序列长度的 ViT 训练方法，ViTok-v2 在此基础上做了哪些针对生成任务的适配？
目前有哪些最新的扩散模型或流匹配模型（Flow Matching）采用了 1B 参数以上的自编码器，它们在计算效率和生成质量上如何权衡？

Contents

ViTok-v2：50 亿参数开启原生高分辨率 Tokenizer 新纪元

1. TL;DR

2. 痛点深挖：为什么 Tokenizer 难以 Scaling？

3. 方法论详解：ViTok-v2 的三大杀手锏

3.1. 1. 非对称架构与 5B 参数扩展

3.2. 2. DINOv3 感知切片损失 (The GAN-Killer)

3.3. 3. NaFlex：告别网格伪影

4. 实验与结果：统治级的性能

4.1. SOTA 重建表现

4.2. 显存效率的飞跃

4.3. 深度洞察：大 AE 真的能带飞生成模型吗？

5. 总结与展望