本文提出了 LTA (Latent Transfer Attack),一种通过在预训练 Stable Diffusion VAE 的隐空间(Latent Space)中优化扰动来生成对抗样本的方法。该方法在跨架构转移攻击(尤其是 CNN 到 ViT)以及对抗净化防御方面取得了 SOTA 成就。
TL;DR
传统的对抗攻击往往在“像素级噪声”上打转,导致其在不同模型间(如从 ResNet 转移到 ViT)表现乏力。本文提出的 LTA (Latent Transfer Attack) 另辟蹊径,不再直接修改像素,而是在 Stable Diffusion VAE 的隐空间内进行优化。通过 VAE 解码器的天然低频先验,LTA 生成的扰动具有极强的架构通用性,在跨架构及对抗净化防御下的表现均大幅领先当前 SOTA。
核心动机:像素空间优化之困
为什么传统的 PGD 或 FGSM 攻击在黑盒转移时效果不好?
- 高频依赖:像素级梯度往往利用了过拟合于特定架构的“高频非鲁棒特征”(Non-robust Features)。
- 预处理脆弱性:精细的像素扰动在经过图像缩放(Resizing)或裁剪(Cropping)后极易失效。
- 防御易识别性:净化类防御(如 DiffPure)能轻易通过去噪手段抹除这些高频噪声。
作者通过研究发现,生成模型的隐空间 具有一种独特的演化方向:在隐空间进行的微小改动,解码后会变成像素空间中与图像结构完全对齐、且以低频分量为主的平滑变化。
LTA 方法论:在隐空间“调包”
LTA 的核心思想是:将原始图像 通过 VAE 编码器映射到隐变量 ,随后在 上进行基于梯度的迭代优化。
1. 优化目标函数
LTA 不使用硬性的投影(Projection),而是采用带惩罚项的软约束公式: 其中:
- :利用“期望变换”(Expectation Over Transformations)在优化时随机加入缩放和裁剪,确保生成的样本不仅能欺骗代理模型,还能经受住预处理的考验。
- :软性像素约束,确保解码后的图片 与原图的差异不超出 限制。
2. 算法流程与关键技术
- 周期性隐空间平滑 (Periodic Latent Smoothing):在迭代过程中,由于 Adam 优化器的特性,隐空间可能会积累局部伪影。作者每隔 步对扰动量进行一次高斯平滑,这不仅提升了视觉质量,更进一步强化了扰动的低频特性。

实验结果:统治级的转移能力
跨架构性能对比
在最具挑战性的 CNN ViT 转移攻击中,LTA 展示了惊人的威力。以 ResNet-50 为代理模型攻击 ViT-B/16 时,LTA 达到了 71.3% 的成功率,比之前的最强基线 BFA 高出了 21.8%。

对抗防御的“克星”
对于像 DiffPure(基于扩散模型的净化)和 NRP(神经表示净化)这类以“去噪”为核心的防御,LTA 表现出了极强的渗透力。原因在于 LTA 的扰动与图像本身的低频结构深度融合,净化算法很难在不破坏图像语义的情况下将其剔除。
深度洞察:为什么低频更好?
作者通过 2D 傅里叶变换 (FFT) 分析了不同攻击生成的扰动能谱。
- 像素攻击:能量散布在整个频谱,特别是高频区域。
- LTA:能量紧紧包裹在 DC(直流/零频)组件周围,这是能量在频谱上高度集中的体现。

这种**结构对齐(Structure-aligned)**的扰动不仅更难被人类肉眼察觉(在用户调研中具有欺骗性),而且触及了深度学习模型共享的底层感知逻辑,而非仅仅攻击特定模型的特定神经元实现。
局限性与展望
尽管 LTA 在转移性上达到了新高度,但它也存在代价:
- 计算开销:由于每轮迭代都需要经过 VAE 解码器,单张图片的生成时间约为 38 秒,比常规攻击慢了数十倍。
- 受限于 VAE 表达力:如果 VAE 无法表达某些细微的对抗方向,LTA 就无法找到它们。
总结
LTA 的成功告诉我们:对抗样本不一定是噪声,也可能是另一种形式的语义扭曲。通过引入生成模型的先验知识,我们可以生成更具稳健性、更有结构感的对抗样本,这为未来构建对抗鲁棒性更强的模型提供了重要的评估基准。
