WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025] Anti-I2V:让你的照片在 AI 视频生成器面前“隐身”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Anti-I2V,一种旨在防止照片被恶意用于图像生成视频(I2V)的防御框架。它通过在 Lab* 空间和频域进行双空间扰动(DSP),并引入层级语义破坏机制,在多种主流生成模型(如 CogVideo-X, OpenSora)上实现了 SOTA 的防御效果。

TL;DR

随着 Sora 等技术的爆发,仅需一张照片就能通过 Image-to-Video (I2V) 模型生成足以乱真的深伪视频。本文介绍的 Anti-I2V 框架通过在 Lab* 空间和频域植入“隐形地雷”,并精准打击模型内部的语义特征传播,让恶意生成的视频彻底崩溃,有效地保护了个人照片不被非法动画化。

1. 背景:为什么传统的保护盾失效了?

目前针对图像生成的保护方法(如对文字生成图像的攻击)主要是通过向 RGB 像素添加扰动。然而,视频扩散模型(VDM)具有极强的“自愈”能力:

  • 迭代去噪:多步去噪会像磨皮一样洗掉细微的像素噪声。
  • 时空注意力:DiT 或 UNet 架构通过强大的 Attention 机制强制保持帧间一致性,普通噪声很难撼动其语义结构。
  • 高容量:大参数量的模型(如 CogVideo-X)对对抗扰动具有天然的鲁棒性。

2. 核心直觉:从“像素”转向“语义层级”

作者发现,视频生成的质量高度依赖于模型中间层提取的语义特征。如果能让这些深层特征在处理受保护图像时产生“崩溃”或“锚定”到错误的方向,生成的视频就会出现严重的虚影、身份错乱和时空跨越。

3. 技术详解:Anti-I2V 的三重打击

A. 双空间扰动 (Dual-Space Perturbation, DSP)

传统的 RGB 攻击易被 JPEG 压缩或高斯模糊破解。Anti-I2V 选择了两个更隐蔽的战场:

  1. Lab 空间*:在不破坏亮度的前提下,修改 a* 和 b*(色彩分量),这更符合人类视觉系统的特性,隐蔽性更强。
  2. DCT 频域:直接针对 DCT 变换后的低频系数(代表图像骨架)添加噪声,让模型对图像的基础结构产生误判。

B. 内部表示崩溃 (IRC)

作者通过 PCA 可视化分析发现(见下图),模型的第 3 层基本不含语义信息,而深层(如第 27 层)决定了身份和纹理。IRC Loss 强制让深层的特征图去对齐浅层,本质上是让模型“遗忘”高级语义,导致生成的视频面目全非。

PCA 语义特征分析 图中展示了 OpenSora 和 CogVideoX 在不同层级的特征提取情况,越往后层,语义越清晰。

C. 内部表示锚点 (IRA)

为了进一步带偏模型,IRA Loss 会强制让受保护图像在进入 VAE 和去噪网络时,其特征表现得像另一张完全无关的图片。这相当于给 AI 戴上了“有色眼镜”,使其生成的视频逻辑完全偏离原图。

模型总架构图 Anti-I2V 总体攻击流程示意图

4. 实验战绩:全方位压制

在 CelebV-Text(人脸)和 UCF101(人体动作)两个基准上,Anti-I2V 对目前最强的几个开源模型进行了“降维打击”:

  • DynamiCrafter:身份匹配度(ISM)从 0.528 降至 0.151(几乎完全丢失身份特征)。
  • 跨架构迁移性:即便是在 CogVideo-X 上生成的对抗样本,直接用到 DynamiCrafter 上依旧表现出强劲的防御力。

实验结果对比图 定性对比显示,Anti-I2V 生成的防御图像导致视频出现了剧烈的伪影和身份扭曲。

5. 总结与反思

Anti-I2V 的成功在于它找到了视频扩散模型的“阿喀琉斯之踵”——依靠跨帧一致性的语义传播。

  • 优势:防御效果极强,且对常见的图像净化手段(如 DiffPure)具有很好的抗性。
  • 局限性:虽然在 Lab* 空间做了优化,但在强力攻击下,SSIM 和 PSNR 仍有小幅下降,说明在极端防御与绝对视觉完美之间仍需平衡。

这项工作为我们在 AIGC 时代保护个人生物特征和版权提供了一条极具前景的技术路径:用 AI 的语义直觉去对抗 AI 的生成逻辑。

Find Similar Papers

Try Our Examples

  • 查找最近一年内针对 Diffusion Transformer (DiT) 架构进行对抗性攻击或保护的相关论文。
  • 哪篇工作首次提出了在频域(DCT)进行扩散模型对抗攻击的理论,Anti-I2V 在其基础上做了哪些针对视频一致性的改进?
  • 除了 L*a*b* 色彩空间,还有哪些感知一致性空间(如 HSV 或 YCbCr)被用于增强对抗样本的鲁棒性和不可见性?
Contents
[CVPR 2025] Anti-I2V:让你的照片在 AI 视频生成器面前“隐身”
1. TL;DR
2. 1. 背景:为什么传统的保护盾失效了?
3. 2. 核心直觉:从“像素”转向“语义层级”
4. 3. 技术详解:Anti-I2V 的三重打击
4.1. A. 双空间扰动 (Dual-Space Perturbation, DSP)
4.2. B. 内部表示崩溃 (IRC)
4.3. C. 内部表示锚点 (IRA)
5. 4. 实验战绩:全方位压制
6. 5. 总结与反思