本文提出了 Conditioned Activation Transport (CAT),一种用于 Text-to-Image (T2I) 模型推理侧安全治理的激活干预框架。CAT 结合了非线性传输映射(Non-Linear Transport Map)和几何感知调节机制,在 Z-Image 和 Infinity 等 SOTA 架构上显著降低了攻击成功率(ASR),同时保持了极高的图像忠实度。
TL;DR
在文生图(T2I)领域,安全治理一直面临“治理即毁容”的困境:加强安全过滤往往会导致图像质量大幅下降。本文提出的 CAT (Conditioned Activation Transport) 框架,通过 MLP 非线性传输映射 和 马氏距离几何调节,通过在推理阶段对模型激活值进行微调,实现了在不损坏图像质量的前提下,精准消除暴力、色情等有害内容。
背景定位
该工作处于 Representation Engineering (特征工程) 与 AI Safety 的交汇点。与以往通过微调模型参数(Concept Erasure)或简单的线性向量相加(ActAdd)不同,CAT 承认了 T2I 模型内部表征的复杂性,是一个针对流形几何设计的 SOTA 级推理侧干预方案。
痛点深挖:线性假设的崩塌
目前主流的激活引导方法(如 Linear-ACT)大多基于一个简单直觉:安全和不安全的概念在 Latent Space 中可以通过一个方向向量来区分。
但在高维的 T2I 模型中,这种假设往往失效:
- 非凸性(Non-convexity):不安全内容的分布可能是“月牙形”或多峰的,线性位移无法将其准确推回安全区域。
- 过度干预(Over-steering):全局性的线性偏移会误伤正常的 Prompt。例如,想消除“血腥(Blood)”,线性方法可能会把所有“红色物体”的特征都抹除,导致图像色彩崩坏。
核心内容:CAT 的非线性外科手术
1. 传输映射的升级 (Transport Maps)
作者提出,与其用一个恒定的向量,不如用一个 MLP 学习局部的向量场。这就像从“全局平移”升级到了“局部变形”,能处理更复杂的流形拓扑。
图 1:CAT 能够精准抑制有害内容,而 ActAdd 和 Linear-ACT 往往会导致语义漂移或治理失败。
2. 几何感知调节 (Geometry-Aware Conditioning)
为了不误伤良性 Prompt,CAT 引入了类似于“防火墙”的触发机制。它通过计算当前激活值到有害概念中心的 马氏距离(Mahalanobis Distance):
- 如果 激活值落在有害概念的椭球流形内,则触发 MLP 传输。
- 如果 激活值在安全区域,则 CAT 保持恒等映射,完全不干预生成。
3. SafeSteerDataset:高质量手术刀
作者利用 Gemini 2.5-Pro 构建了一个包含 2300 对对比提示词的训练集,其核心特征是 高余弦相似度。这意味着“安全”和“不安全”的 Prompt 在语义上极其接近(例如:“穿比基尼的女人” vs “裸身的女人”),从而训练模型只剥离那一点“毒性”,而不改变画面其余部分。
实验结果:安全与质量的兼得
作者在最新的 Z-Image (单流 DiT) 和 Infinity (自回归 4K 生成) 架构上进行了验证:
- 安全性:在 Z-Image 上,攻击成功率(ASR)从约 34% 跌至 7% 以下。
- 质量:通过 CLIP Score 衡量,CAT 的图像质量几乎与原始模型持平,而传统的线性方法(Linear-ACT)在 Infinity 模型上直接导致了图像崩溃(CLIP 掉到 0.16)。
图 2:在合成数据上的可视化证明。MLP Transport (CAT 核心) 能完美处理非凸(The Moon)和多模态(XOR)分布,而线性方法在这些情况下会发生塌陷。
深度洞察
CAT 的成功揭示了一个深刻的学术事实:Transformer 架构内部的安全边界并不是简单的线性超平面。
相比于训练昂贵的“安全版模型”,CAT 这种推理侧的插件式方案具有巨大的行业价值:
- 灵活:不需要重新训练基础模型,仅需少量对比数据训练一个小 MLP 即可。
- 无损:通过精密设计的条件触发,它解决了 AI 安全领域长久以来的“对齐税(Alignment Tax)”问题。
总结与局限
CAT 为 T2I 治理提供了一种更具“几何直觉”的武器。它的局限性在于主要处理均值池化后的特征,对于由于局部遮挡或特定空间位置产生的有害内容(如画面角落的违规标志),可能需要更细粒度的空间令牌级(Token-level)干预。
未来的研究方向可能会探索如何将这种非线性传输扩展到视频生成等时空流形更加复杂的领域。
Takeaway: 安全不是简单的加减法,而是激活空间中精密流形的重塑。
