V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

[ICLR 2025] V-Co：像素空间扩散模型的破局之路，语义导航下的协同去噪金牌配方

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 V-Co，一种通过视觉协同去噪（Visual Co-Denoising）实现像素级扩散模型表征对齐的系统性框架。该方法在 ImageNet-256 上取得了 SOTA 性能，V-Co-H/16 仅需 300 epoch 训练即达到 FID 1.71，显著优于 JiT 等像素空间基线模型。

TL;DR

在生成模型的世界里，潜空间模型（LDMs）凭借 VAE 的压缩能力长期占据统治地位。然而，像素空间扩散模型（Pixel-space Diffusion）近期正在强力回归。本文介绍的 V-Co 为像素空间模型打了一剂强心针：通过引入预训练 DINOv2 特征进行协同去噪（Co-Denoising），并在架构、引导、损失函数和校准四个维度提供了严格验证的“金牌配方”。结果显示，小模型 V-Co-B 即可越级挑战大其两倍的基线模型，刷新了像素生成的效果上限。

痛点深挖：为什么像素生成总是“差点意思”？

传统的像素空间扩散模型（如 JiT）直接在原始像素上进行去噪。虽然避开了 VAE 带来的重构伪影和瓶颈，但它面临一个本质困难：像素损失无法显式捕捉高层语义结构。这导致模型在学习“猫的轮廓”或“复杂的纹理逻辑”时极其低效。

虽然之前有研究尝试用预训练模型做监督（如 REPA），但如何将这些高层特征深度整合进采样轨迹，而非仅仅作为训练时的旁路约束，一直是领域内的未解之谜。

核心方法论：V-Co 的四大金牌配方

作者通过一套严谨的消融实验，剥离了所有干扰项，总结出协同去噪的四大核心：

1. 全双流架构（Fully Dual-stream Architecture）

研究发现，简单的特征融合（如相加或通道拼接）会限制模型的表达能力。V-Co 采用了全双流架构：像素流和语义流拥有各自的 Norm、MLP 和 Attention 投影，但通过联合自注意力（Joint Self-attention）进行交互。这种设计允许模型在保留各自特征特性的同时，动态决定交互的时机。

模型架构图

2. 结构化遮蔽 CFG（Structural Masking for CFG）

这是本文的一个神来之笔。在进行分类器自由引导（CFG）时，定义“无条件预测”至关重要。V-Co 抛弃了传统的输入置零，而是直接在 Attention 层实施语义到像素的遮蔽（Semantic-to-pixel Masking）。这意味着在无条件路径下，像素流完全看不见语义流的信息，从而产生最纯粹的无条件预测方向。

3. 感知-漂移混合损失（Perceptual-drifting Hybrid Loss）

单纯的均方误差（MSE）对齐可能导致模式崩塌。作者结合了两种力量：

感知力：拉近生成样本与地面真值（GT）的特征距离。
漂移力：利用排斥机制防止生成的特征堆积在某些区域，通过类内排斥增强分布覆盖度。

4. RMS 特征校准

像素和 DINOv2 特征位于完全不同的流形空间。V-Co 提出了一种极其简单但有效的物理直觉：通过 RMS（均方根）缩放 使两个流的信号强度匹配。数学上，这等同于动态调整了两个流的去噪信噪比（SNR），确保它们在相同的步数内以相似的难度进行优化。

实验与结果：小参数的“降维打击”

实验在 ImageNet-256 上进行。V-Co 展示了恐怖的参数效率：

越级挑战：V-Co-B（260M）达到了 FID 2.33，直接追平了参数量接近其两倍的 JiT-L（459M）。
SOTA 登顶：V-Co-H/16 仅需 300 个 epoch 的训练，便以 1.71 的 FID 刷新了像素级扩散模型的记录，超越了 2B 参数规模的 JiT-G。

实验结果对比

深度洞察与总结

V-Co 的成功证明了：像素级生成模型并不弱，弱的是对高层语义的整合方式。 本文通过一套干净的消融实验，告诉我们不需要复杂的模块，只需对 Attention 进行结构化遮蔽，对特征进行简单的 RMS 校准，并引入分布级的正则化损失，就能让像素空间扩散模型焕发第二春。

尽管目前仍依赖像 DINOv2 这样的外部编码器，但 V-Co 为未来的端到端多模态对齐生成（如 Text-to-Image）树立了一个极具参考价值的基准。对于追求生成质量且受够了 VAE 模糊感的开发者来说，V-Co 无疑是目前最值得尝试的方向之一。

本文由资深学术技术主编重构。

Find Similar Papers

Try Our Examples

查找最近其他尝试在像素空间（Pixel-space）通过表征对齐（Representation Alignment）提升扩散模型生成质量的论文。
哪篇论文最早提出了漂移损失（Drifting Loss）的概念，本文提出的感知-漂移混合损失（Perceptual-drifting Hybrid Loss）在数学推导上与其有何具体改进？
有哪些研究探讨了将双流协同去噪（Co-Denoising）架构应用到视频生成或视觉-语言多模态任务中？

Contents

[ICLR 2025] V-Co：像素空间扩散模型的破局之路，语义导航下的协同去噪金牌配方

1. TL;DR

2. 痛点深挖：为什么像素生成总是“差点意思”？

3. 核心方法论：V-Co 的四大金牌配方

3.1. 1. 全双流架构（Fully Dual-stream Architecture）

3.2. 2. 结构化遮蔽 CFG（Structural Masking for CFG）

3.3. 3. 感知-漂移混合损失（Perceptual-drifting Hybrid Loss）

3.4. 4. RMS 特征校准

4. 实验与结果：小参数的“降维打击”

5. 深度洞察与总结