Group Editing : Edit Multiple Images in One Go

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Group Editing : Edit Multiple Images in One Go

[CVPR 2026] GroupEditing：重塑多图联动编辑，让一致性触手可及

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 GroupEditing，一个旨在对一组相关图像进行一致性、统一化修改的训练框架。该方法将图像组重构为“伪视频”序列，结合了预训练视频模型的隐式时空先验与 VGGT 提取的显式几何对应关系，在多视角图像编辑任务中达到了 SOTA 水准。

TL;DR

在数字资产创作中，如何让一组不同角度的照片（例如同一个角色的多张生活照）同时换上同一件衣服且严丝合缝？香港科技大学与清华等机构提出的 GroupEditing 给出了答案。它突破了单图编辑的范畴，将图像组视为“伪视频”，利用视频模型的时空直觉配合显式几何对齐，实现了跨视角、跨姿态的高保真一致性编辑。

背景定位

传统的图像编辑（如 InstructPix2Pix, MasaCtrl）大都深耕于“单兵作战”。当面对一组图像时，即便使用相同的 Prompt，生成的纹理和轮廓也常常南辕北辙。GroupEditing 在学术坐标系中属于从单图编辑向多图协同编辑（Group-image Editing）跨越的奠基性工作，它首次将大规模视频扩散模型（WAN-2.1）的生成能力直接转化为图像组之间的一致性约束。

痛点深挖：为什么“对齐”这么难？

研究团队指出，多图编辑的核心挑战在于建立可靠的语义对应关系（Correspondences）。

语义层面（隐式）：模型需要知道多张图中哪部分是“左眼”，哪部分是“Logo”。
几何层面（显式）：当物体发生旋转或形变时，简单的 Attention 匹配会失效。

现有的 SOTA 方法（如 Edicho）在处理复杂几何变换时往往力不从心，导致编辑后的物体在切换视角时产生“跳变”。

核心内容：显式几何与隐式先验的“联姻”

1. 将图像组伪装成视频

GroupEditing 的第一步极具洞察力：它不把图片看作独立的个体，而是通过 patchify 处理成 Token 序列，喂给预训练的视频扩散模型。视频模型在训练中学习到的“物体随时间平滑移动”的直觉，被直接借用来处理图像间的空间变换。

2. Ge-RoPE：给模型装上“几何义肢”

为了强化几何对齐，作者引入了 Geometry-enhanced RoPE (Ge-RoPE)。

模型从 VGGT 提取密集特征。
通过位移场（Displacement Field）调整 RoPE 的空间索引，使不同视图中对应的像素点在 Latent Space 中拥有相似的“位置签名”。

模型架构图 图注：GroupEditing 整体架构。左侧为基于视频模型的 Pipeline，右侧展示了 Ge-RoPE 和 Identity-RoPE 的对齐机制。

3. Identity-RoPE：身份守护者

在编辑人物或特定物体时，Identity 的一致性至关重要。作者设计了 Identity-RoPE，它利用 Bounding Box 归一化坐标，确保无论物体在图中哪个位置，其对应的 Token 都能获得一致的身份编码。

实验与结果：全方位碾压

团队构建了 GroupEditData（包含 7k+ 组数据）和 GroupEditBench（800 组基准）。

实战表现

在与 Anydoor, OminiControl 等强力基线的对比中，GroupEditing 在局部编辑（如给狐狸穿上盔甲）和全局风格化（如将吉普车变为水彩风）上均展现了极强的稳定性。

实验结果对比 图注：可视化对比。可以看到 GroupEditing 在多图联动时，物体的细节特征（如颜色、装甲结构）保持得极为稳健。

量化提升

一致性：DINO-Score 达到了 0.8168，远超同类框架。
审美评分：Aesthetic-Score 提升至 5.39，证明了模型生成的视觉质量。
下游赋能：编辑后的图片可直接用于 3D 重建（如 Must3R），生成具有一致纹理的 3D 模型。

深度洞察与总结

GroupEditing 的成功验证了一个关键假设：视频模型蕴含的运动/空间变换规律，是解决静态图像间一致性问题的“银弹”。

局限性： 虽然在语义对齐上表现卓越，但对于极端视角（如正视图到完全背视图）的重度遮挡区域，模型仍存在一定的推测性伪影。

未来展望： 这一技术将直接赋能虚拟主播、电商全视角广告展示以及影视角色一键换装等工业场景。随着视频生成模型底座的不断进化，GroupEditing 这种“借力打力”的思路将成为多媒体编辑领域的主流架构。

Find Similar Papers

Try Our Examples

查找最近利用视频生成模型（Video Diffusion Models）作为先验来解决多视图一致性问题的相关论文。
哪篇论文最早提出了 VGGT (Visual Geometry Grounded Transformer)，它是如何通过 Transformer 结构实现高精度几何匹配的？
探讨将 GroupEditing 这种跨视图一致性编辑技术应用于 3D 场景编辑或神经辐射场（NeRF）风格化的研究现状。

Contents

[CVPR 2026] GroupEditing：重塑多图联动编辑，让一致性触手可及

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么“对齐”这么难？

4. 核心内容：显式几何与隐式先验的“联姻”

4.1. 1. 将图像组伪装成视频

4.2. 2. Ge-RoPE：给模型装上“几何义肢”

4.3. 3. Identity-RoPE：身份守护者

5. 实验与结果：全方位碾压

5.1. 实战表现

5.2. 量化提升

6. 深度洞察与总结