RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

[ICLR 2026] RPiAE：以表征为锚点，打破图像生成与精准编辑的性能天花板

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 RPiAE (Representation-Pivoted Autoencoder)，这是一种基于预训练视觉表示模型的图像分词器。通过引入“表征锚点正则化”和分阶段训练策略，该方法在保持高保真图像重建的同时，为扩散模型（Diffusion Models）提供了语义丰富的压缩潜空间，显著提升了图像生成与编辑的质量。

TL;DR

在 Latent Diffusion Model (LDM) 的范式中，分词器（Tokenizer）直接决定了潜空间的“质量”。本文提出的 RPiAE 巧妙解决了预训练表征模型在生成任务中的“水土不服”：通过表征锚点正则化和变分桥接，它既保留了 DINOv2 这类模型的强大语义，又实现了像素级的重建精度。实验表明，它在图像生成和精细化编辑上均刷新了记录。

背景定位：分词器是 LDM 的隐藏瓶颈

自 SD 和 Flux 爆火以来，研究者的重心多放在 Diffusion Transformer 结构的堆叠上，而忽略了定义潜空间的 VAE。

传统 VAE：重建好，但空间杂乱，扩散模型学得痛苦。
表征重用（如 RAE）：直接拿预训练模型当编码器。语义虽强，但为了保语义通常冻结编码器，导致重建细节丢失（一编辑就变脸/糊掉）；且维度太高，扩散模型推理开销大。

RPiAE 的出现正是为了终结这种“既要又要”的矛盾。

核心动机：如何优雅地解锁编码器？

作者发现，提升重建上限必须微调编码器，但一旦微调，编码器就会为了“像素对齐”而丢掉“语义结构”。

为了解决这个 Drift（漂移）问题，RPiAE 提出了 Representation-Pivot Regularization。其直觉非常简单：训练时多放一个冻结的预训练副本（Pivot Replica）作为导师，强制微调中的编码器在提取特征时，不要偏离导师的表征空间太远。

架构详解：三位一体的改进

RPiAE 的结构包含三个关键部分：

RM Encoder (Eθ)：基于 DINOv2 初始化。它是可训练的，但受到 L_piv 损失的约束。
Variational Bridge (VB)：由一对 Transformer 组成。它负责把 768 维的稀疏表征压缩到 64 维的紧凑潜空间，并引入 KL 散度约束，确保存储的是“扩散友好”的分布。
Decoder (Dϕ)：采用 ViT-XL 架构，负责最终的像素回显。

模型架构图

目标解耦的训练策略

为了训练稳健，作者将过程分为三步：

Stage I：微调编码器和解码器，重点在“重建 + 表征对齐”。
Stage II：冻结两头，只练中间的 Variational Bridge，重点在“潜空间压缩”。
Stage III：冻结其他，单独精修解码器，重点在“消除伪影，提升视觉观感”。

实验战绩：重建与生成的双重胜利

在 ImageNet-1K 的评估中，RPiAE 展现了极强的统治力：

生成精度：gFID 达到 1.09，超越了包括 VA-VAE 和 RAE-B 在内的所有基线。
重建保真度：相比于同样基于 DINOv2 的 RAE，RPiAE 的 rFID 从 0.57 提升至 0.50，肉眼可见地修复了复杂的几何纹理（如网格、瓦片）。

实验结果对比

图像编辑的“硬实力”

在 GEdit-Bench-EN 等编辑基准上，RPiAE 的优势更加明显。由于重建能力强，它在执行“给猫戴帽子”这类指令时，能完美保留猫的原始身份（Identity）和复杂的背景，而不会像其他模型那样出现颜色偏移或语义走样。

可视化效果对比

深度洞察：表征真的被保留了吗？

一个有趣的细节是，作者将 RPiAE 训练后的编码器直接接上原始 DINOv2 的分类头，发现 ImageNet Top-1 准确率仅下降了不到 0.4%（84.56 vs 84.18）。这有力地证明了 Pivot Regularization 的魔力：它在不破坏下游感知能力的情况下，成功让编码器学会了生成任务所需的细节。

总结与展望

RPiAE 的成功标志着“统一表征与生成”迈出了重要一步。它告诉我们，与其在大模型端死磕，不如回头把“潜空间”这个地基打牢。 局限性：尽管维度已经压缩，但对于超低算力平台，基于 ViT 的解码器推理延迟仍是一个挑战。 未来启示：这种“锚点微调”的思想可以进一步扩展到视频生成或 3D 资产生成等对空间结构极其敏感的领域。

本文由资深学术技术主编解读，更多前沿 arXiv 追踪请持续关注。

Find Similar Papers

Try Our Examples

查找最近一年内将预训练视觉表征模型（如 DINOv2, CLIP）直接作为 Transformer 分词器的其他改进方法，特别是针对重建保真度的研究。
哪篇论文最早探讨了扩散模型分词器中潜空间维度（Latent Dimension）与生成难度之间的量化关系，本文的 Variational Bridge 与之有何理论联系？
调研目前在图像编辑领域，如何通过改进 Autoencoder 的结构（例如引入控制模块或特殊的 Regularization）来减少重建过程中的“背景泄露”或“语义漂移”问题。

Contents

[ICLR 2026] RPiAE：以表征为锚点，打破图像生成与精准编辑的性能天花板

1. TL;DR

2. 背景定位：分词器是 LDM 的隐藏瓶颈

3. 核心动机：如何优雅地解锁编码器？

4. 架构详解：三位一体的改进

4.1. 目标解耦的训练策略

5. 实验战绩：重建与生成的双重胜利

5.1. 图像编辑的“硬实力”

6. 深度洞察：表征真的被保留了吗？

7. 总结与展望