WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
ViTok-v2:50 亿参数开启原生高分辨率 Tokenizer 新纪元
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 ViTok-v2,一种基于 Vision Transformer (ViT) 的超大规模图像自编码器(Tokenizer),参数量首次扩展至 50 亿。该模型采用非对称架构、NaFlex 训练协议及创新的 DINOv3 感知损失,实现了在任意分辨率下的原生支持,并在图像重建与生成任务中达到了 SOTA 水平。

TL;DR

在视觉生成领域,自编码器(AE)作为将像素压缩至潜在空间的“翻译官”,其性能直接决定了生成的上限。ViTok-v2 成功将 ViT Tokenizer 的参数量推向了 50 亿级的巅峰。它通过 DINOv3 感知损失 解决了扩展性不稳定的顽疾,并凭借 NaFlex 协议打破了分辨率的束缚。实验证明,ViTok-v2 在 2048p 下的重建质量超越了所有 CNN 和 ViT 基线,且支持 8K 图像的超快处理,彻底解决了大模型在超高清图像处理上的 OOM 痛点。

痛点深挖:为什么 Tokenizer 难以 Scaling?

尽管 Transformer 在各种视觉任务中大放异彩,但在自编码器领域,工业界仍倾向于使用 CNN(如 SDXL/FLUX 的 VAE)。原因有二:

  1. 分辨率僵化:ViT 强依赖于位置编码,一旦输入尺寸偏离训练时的 256x256,就会产生断裂的网格伪影(Grid Artifacts)。
  2. 训练不稳定性:为了让重建图像不“模糊”,研究者通常加入 GAN 损失。然而,在高参数量下,GAN 极易导致模式崩塌或梯度爆炸。

ViTok-v2 的直觉非常明确:用更强的解码器容量去“对冲”压缩损失,用自监督深度特征替代不稳定的对抗训练。

方法论详解:ViTok-v2 的三大杀手锏

1. 非对称架构与 5B 参数扩展

作者发现,“编轻解重”是最优解。ViTok-v2 的编码器非常浅(仅 4 层),而解码器则扩展到了 40 层,参数量覆盖 88M 到 4.5B。这种设计让模型在保持极低延迟的同时,具有超强的解码纠错能力。

模型架构图 (注:此处应为由浅层 Encoder 和深层 Transformer Decoder 组成的架构图)

2. DINOv3 感知切片损失 (The GAN-Killer)

这是本文的核心突破。作者引入了 DINOv3 Perceptual Tile Loss。不同于传统的 LPIPS(基于过时的 VGG 网络),DINOv3 捕捉的是具有高度空间对应关系的语义特征。通过在原图和重建图的相同位置随机采样 224x224 的切片并对比特征,ViTok-v2 实现了比 GAN 更稳定、比 LPIPS 更细腻的细节重现。

3. NaFlex:告别网格伪影

为了实现真正的原生分辨率支持,模型采用了两阶段 NaFlex 训练:

  • 前 90% 时间在 256 词元预算下训练变比例裁剪;
  • 后 10% 时间将预算提升至 1024 词元。 配合 2D RoPE 和推理时的滑动窗口注意力 (SWA),模型在处理 4K 甚至 8K 图像时表现得游刃有余。

实验与结果:统治级的性能

SOTA 重建表现

在 1024p 和 2048p 的高分辨率测试(DIV8K 数据集)中,ViTok-v2 展现了统治级优势。其 PSNR 比 FLUX.2 高出约 3 dB。

实验结果对比 (注:此处应为 ViTok-v2 在不同分辨率下 PSNR 和 rFID 的对比曲线图)

显存效率的飞跃

CNN 基线模型在处理 4K 图像时往往需要超过 60 秒,甚至在 8K 时直接显存溢出。由于 SWA 的线性复杂度特征,ViTok-v2 处理 4K 仅需 1.2 秒,且能稳定输出 8K 图像。

深度洞察:大 AE 真的能带飞生成模型吗?

一个有趣的发现是:即使是在相同的重建指标(rFID)下,5B 规模的自编码器提供的潜在表征,能显著降低下游扩散模型(Flow Model)的生成噪声。这意味着 Scaling Tokenizer 本身就是一种“免费”的质量提升手段。

总结与展望

ViTok-v2 的出现标志着视觉自编码器正式进入“全 Transformer + 大规模自监督感知损失”的时代。

  • 贡献:解决了 ViT Tokenizer 的分辨率泛化问题,证明了 GAN 并非高清重建的必选项。
  • 局限性:尽管推理阶段有 SWA,但 5B 参数的解码器依然存在一定的静态计算开销。
  • 启发:未来的多模态大模型(LMM)或许应当直接集成这种大参数量的原生自编码器,以实现像素级和语义级的深度统一。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他试图舍弃 GAN 损失并使用自监督特征(如 DINOv2 或 CLIP)进行图像 Tokenizer 训练的研究。
  • 哪篇论文最早提出了 NaFlex 或类似的处理变比例序列长度的 ViT 训练方法,ViTok-v2 在此基础上做了哪些针对生成任务的适配?
  • 目前有哪些最新的扩散模型或流匹配模型(Flow Matching)采用了 1B 参数以上的自编码器,它们在计算效率和生成质量上如何权衡?
Contents
ViTok-v2:50 亿参数开启原生高分辨率 Tokenizer 新纪元
1. TL;DR
2. 痛点深挖:为什么 Tokenizer 难以 Scaling?
3. 方法论详解:ViTok-v2 的三大杀手锏
3.1. 1. 非对称架构与 5B 参数扩展
3.2. 2. DINOv3 感知切片损失 (The GAN-Killer)
3.3. 3. NaFlex:告别网格伪影
4. 实验与结果:统治级的性能
4.1. SOTA 重建表现
4.2. 显存效率的飞跃
4.3. 深度洞察:大 AE 真的能带飞生成模型吗?
5. 总结与展望