When to Lock Attention: Training-Free KV Control in Video Diffusion

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

When to Lock Attention: Training-Free KV Control in Video Diffusion

[CVPR 2026] KV-Lock: 什么时候该锁死 Attention？基于幻觉检测的免训练视频编辑新范式

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 KV-Lock，一个针对 DiT 架构视频扩散模型的免训练（Training-free）编辑框架。该方法通过实时检测去噪过程中的“幻觉”（Hallucination）风险，动态调度背景 KV 缓存锁定强度与前导指导（CFG）比例，实现了在保持背景高度一致性的同时，显著提升前景生成的质量。

TL;DR

在视频编辑任务中，如何既能把背景“焊死”不动，又能让前景编辑得自然灵动？本文提出的 KV-Lock 给出了一种优雅的方案：无需重新训练模型，通过实时监测扩散过程中的幻觉（Hallucination），动态调节背景 KV 的锁定强度。实验证明，该方法在保持背景一致性的同时，大幅降低了编辑过程中的形变与不自然感。

痛点深挖：背景“锁不住”与前景“生不出”

视频编辑的核心挑战在于空间精度与时间一致性的双重压力。

Prior Work 的局限：传统的反演（Inversion）方法往往只能做到粗粒度控制，编辑信息容易泄露到背景。
KV 缓存锁定的困局：最近的研究发现，在 DiT 架构中缓存背景的 Key-Value (KV) 能够保护背景，但如果全程固定比例锁定，会剥夺模型的自由度，导致前景生成僵硬，甚至产生崩坏的伪影（幻觉）。

作者提出了一个深度思考：“究竟什么时候该锁定背景 Attention，什么时候该放开模型让其自由发挥？”

核心机制：当幻觉遇到 KV 锁

KV-Lock 的直觉来源于一个物理发现：去噪预测轨迹的**方差（Variance）**直接量化了生成的“不稳定度”。

1. 幻觉检测器 (Hallucination Detector)

作者通过跟踪预测样本 $\overset{x}{^}_{0}$ 在连续步长内的波动来识别风险。如果某个 token 区域的方差超过阈值 $a u$ ，说明模型正处于“幻觉”高发期，生成内容可能偏离真实分布。

2. 动态 KV 控制

一旦检测到幻觉风险，KV-Lock 会立即介入：

增强锁定：提高源视频 KV 缓存的融合比例 $α_{k}$ ，将背景像素强行拉回原始流形。
CFG 放大：同步调大 Classifier-Free Guidance (CFG) 的倍数，强化 Prompt 的引导力，纠正前景偏航。

模型架构图 图 1：KV-Lock 框架总览，展示了从 Inversion 到幻觉调度采样的全流程。

3. 自适应 CFG 缩放

为了进一步消除高 CFG 带来的过饱和或伪影，本文引入了一个闭式解优化的缩放因子 $s^{*}$ ，通过正交投影确保无条件预测结果能完美对齐条件预测的方向。

实验战绩：背景稳如磐石，前景焕然一新

在 Wan 2.1 大模型底座上，KV-Lock 展示了极强的统治力。相比之前的 ProEdit 和 VACE，KV-Lock 在处理复杂物体替换（如将火车头改为科技感列车）时，能有效防止“脱轨”现象。

实验结果对比 表 1：定量评估显示，KV-Lock 在背景 SSIM 和 PSNR 方面具有显著优势。

可视化效果对比

在针对“莫奈风格绘画”和“车后灰尘生成”的任务中，KV-Lock 表现出了极佳的物理一致性：

ProEdit：背景融合固定，导致远近灰尘比例失调。
KV-Lock：根据去噪状态动态调节，前景光影与环境完美融合。

效果对比图 图 2：消融实验验证了基于方差的调度能有效压缩采样波峰，使生成过程最终回归稳定状态。

深度洞察：免训练视频编辑的未来

KV-Lock 的成功不仅仅在于刷榜，它揭示了一个重要的设计哲学：Diffusion Model 本身就是一个能够自我反馈的系统。通过监听其内部的“确定性信号”（方差），我们可以像老练的后期剪辑师一样，在模型迷茫时（高幻觉）多给参考，在模型顺畅时放权。

局限性：由于需要先跑一遍前向 Pass 获取 KV 缓存，KV-Lock 的推理延迟和显存占用（约需额外 10GB）是其主要的落地挑战。

结论

KV-Lock 为 DiT 时代的视频编辑提供了一个极其强大的“即插即用”模块。它告诉我们，与其死磕如何训练更好的模型，不如研究如何更聪明地“调度”现有的模型能力。

Find Similar Papers

Try Our Examples

查找其他利用扩散模型去噪轨迹方差或内部特征统计量进行实时采样控制或视频一致性增强的最新论文。
哪篇论文最早探讨了在 Diffusion Transformer (DiT) 架构中通过操作 KV Cache 来实现受控编辑，KV-Lock 与其在注入时机上有何区别？
有哪些类似的分层动态 CFG 调度（Dynamic CFG Scheduling）方法被应用在长视频生成或复杂多模态编辑任务中？

Contents

[CVPR 2026] KV-Lock: 什么时候该锁死 Attention？基于幻觉检测的免训练视频编辑新范式

1. TL;DR

2. 痛点深挖：背景“锁不住”与前景“生不出”

3. 核心机制：当幻觉遇到 KV 锁

3.1. 1. 幻觉检测器 (Hallucination Detector)

3.2. 2. 动态 KV 控制

3.3. 3. 自适应 CFG 缩放

4. 实验战绩：背景稳如磐石，前景焕然一新

4.1. 可视化效果对比

5. 深度洞察：免训练视频编辑的未来

6. 结论