RefAlign: Representation Alignment for Reference-to-Video Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

RefAlign: Representation Alignment for Reference-to-Video Generation

[ICLR 2026] RefAlign：拒绝“复制粘贴”，通过表征对齐实现高保真参考图像视频生成

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 RefAlign，一种用于参考图像生成视频 (R2V) 的表征对齐框架。该方法通过引入参考对齐 (RA) 损失，将 DiT 的参考分支特征显式对齐到视觉基础模型 (VFM) 的语义空间，在 OpenS2V-Eval 基准测试中取得了 SOTA 性能。

TL;DR

在参考图像生成视频 (Reference-to-Video, R2V) 领域，如何让模型既能“长得像”参考图，又能听懂指令动起来，一直是个难题。百度、南开大学等机构的研究者提出了 RefAlign，通过在训练中将 DiT 的特征对齐到视觉基础模型（如 DINOv3），成功消除了常见的视频“复制粘贴”感和多主体混乱。最重要的是：推理速度完全不减！

背景定位：R2V 的“既要又要”难题

目前的视频生成模型（如 Sora, Wan2.1）虽然文字转视频（T2V）很强，但在精细控制（如特定身份、特定服装）上仍显乏力。R2V 任务应运而生，但它面临两个顽疾：

复制粘贴伪影 (Copy-paste Artifacts)：模型直接从参考图里搬像素，导致生成的视频像是一张静态图在扭动，背景和动作极不自然。
主体混淆 (Multi-subject Confusion)：当参考图里有两个人时，模型往往会把他们的特征“杂交”，分不清谁是谁。

核心洞察：从隐式引导到显式对齐

作者观察到，传统的 VAE 编码特征在潜空间中非常“混乱”（Entangled），不同物体的边界模糊，而像 DINOv3 这样的视觉基础模型（VFM）天生具有极强的物体鉴别力。

特征分布对比图 图 1：RefAlign 生成效果展示，精准保持身份的同时实现了大幅度动作。

方法论：RA 损失函数的降维打击

RefAlign 的核心是 RA Loss (Reference Alignment Loss)。它不改变现有的 DiT 架构，而是在训练时给 DiT 的中间层额外加了一个“教练”（外挂的 VFM 编码器）：

正向拉近 (Positive Alignment)：要求 DiT 生成的参考特征必须靠近 VFM 提取的同主体语义特征，确保“神似”。
负向推开 (Negative Alignment)：专门设计了一个带 Margin 的损失项，强制推开不同主体的特征，解决多主体干扰。

模型架构图 图 2：训练阶段引入 VFM 指导，推理阶段将其移除，实现“训练中学习，推理中零开销”。

实验战绩：登顶 SOTA 分数线

在 OpenS2V-Eval 这一严苛的基准测试中，RefAlign 展现了统治级的表现。

| 模型 | 总分 (TotalScore) | 身份相似度 (FaceSim) | 文本一致性 (Gme) | | :--- | :--- | :--- | :--- | | RefAlign-14B | 60.42% | 55.23% | 68.32% | | Kling1.6 | 56.23% | 40.10% | 66.20% | | VINO | 57.85% | 52.00% | 69.69% |

实验结果对比 表 1：RefAlign 在各项指标上均处于行业领先地位，尤其在 NexusScore（主体一致性）上表现突出。

消融实验的关键发现

不加对齐损失 (w/o LRA)：面部相似度虽高，但视频极易出现“静止”或“指令不服从”。
深度的影响：实验发现，对齐到第 9 层（中间层）效果最好。太浅了学不到语义，太深了反而会损失细节。

总结与限制

RefAlign 为视频生成的控制逻辑提供了一个全新的视角：借用成熟视觉模型的“眼睛”来训练生成模型的“手”。

它的优势：

有效平衡了参考图保真度与文本指令的遵循度。
解决了多角色场景下的身份错乱问题。
推理时无需额外计算资源。

局限性： 尽管能够处理 81 帧视频，但在极长序列生成上仍受限于底座模型（Wan2.1）。此外，如何利用多个 VFM（如结合 DINOv3 的结构与 SigLIP2 的语义）构建更完美的对齐信号，是未来值得探索的方向。

如果你对 R2V 感兴趣，RefAlign 提供的“训练期特征对齐”思路绝对是今年最值得关注的技术路线之一。

Find Similar Papers

Try Our Examples

查找最近其他利用 DINOv2 或 DINOv3 视觉特征来增强扩散模型（Diffusion Models）可控生成的论文。
哪篇论文最早提出了 REPA (Representation Alignment) 框架，RefAlign 在其基础上针对多主体参考做了哪些核心改进？
有哪些研究探讨了在视频生成任务中降低 VAE 像素泄露影响、缓解 Copy-paste 伪影的其他策略？

Contents

[ICLR 2026] RefAlign：拒绝“复制粘贴”，通过表征对齐实现高保真参考图像视频生成

1. TL;DR

2. 背景定位：R2V 的“既要又要”难题

3. 核心洞察：从隐式引导到显式对齐

4. 方法论：RA 损失函数的降维打击

5. 实验战绩：登顶 SOTA 分数线

5.1. 消融实验的关键发现

6. 总结与限制