Versatile Editing of Video Content, Actions, and Dynamics without Training

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Versatile Editing of Video Content, Actions, and Dynamics without Training

[DeepMind] DynaEdit：无需微调，解锁视频动作与动态物理交互的深度编辑

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DynaEdit，一种基于预训练视频生成模型（如 WAN2.1, HunyuanVideo）的无需训练（Training-free）视频编辑方法。该方法首次在无需微调的情况下，实现了对视频中复杂动作、动态事件及全局效应的非刚性编辑，达到了与商用闭源模型（如 Runway Aleph）相当的 SOTA 水平。

TL;DR

传统的视频编辑技术通常只能换个“皮肤”（风格迁移），一旦涉及“让视频里的猫跳过障碍物”这种改变物体原轨迹的动作编辑，往往束手无策。Google DeepMind 近期发布的 DynaEdit 打破了这一局限。它是一种 Training-free（无需训练） 的方法，直接调用现成的文本生成视频（T2V/I2V）大模型，就能修改视频中的复杂动作、物理交互和全局动态，且在保持原始视频背景和光影的一致性上达到了新的高度。

核心痛点：为什么“动”起来这么难？

在视频编辑领域，长期存在一个平衡难题：

Edibility（可编辑性）：模型需要足够的自由度去改变物体的物理路径。
Fidelity（忠实度）：编辑后的视频必须看起来和原视频是同一个场景、同一个主角。

现有的 Inversion-free 方法在尝试大幅度偏移原始路径时，经常会遇到两个“拦路虎”：

低频偏移（Low-frequency Misalignment）：因为起始噪声的随机性，视频的运镜、物体的位置会发生根本性的偏移，导致除了开头和结尾，中间内容完全和原片对不上。
高频抖动（High-frequency Jitter）：由于每一步预测的噪声是独立的，视频会出现肉眼可见的闪烁和模糊。

关键技术：DynaEdit 的核心配方

为了解决上述问题，DynaEdit 引入了两个巧妙的模块，在 Rectified Flow 框架下实现了精准控制。

1. 相似性引导聚合 (Similarity Guided Aggregation, SGA)

在去噪的初始阶段（决定视频大轮廓的时期），模型会生成多个候选的编辑方向。SGA 不再是简单地对这些方向取平均，而是计算每个候选方向预测出的最终结果与原视频的 Cosine Similarity（余弦相似度）。

直觉：通过 Softmax 归一化分配权重，模型会自动“投票”给那些既完成了文本指令、又最像原视频的候选方向。这保证了即使马在跳跃，它的毛色和背景天空依然是原来的样子。

模型架构与SGA流程

2. 退火噪声相关性 (Annealed Noise Correlation, ANC)

针对高频抖动问题，作者发现完全独立的噪声采样是罪魁祸首。

创新点：ANC 会随着去噪步骤的进行，逐渐增加相邻步骤之间噪声的 Correlation（相关性）。在最后决定细节颗粒度的阶段，噪声趋于一致。这种“退火”策略在不牺牲早期编辑灵活性的前提下，极大地增强了画面的时空稳定性。

实验战绩

研究团队在 WAN2.1 和 Hunyuan 1.5 等多种主流模型上测试了 DynaEdit，任务涵盖了“让球进洞”、“让宇航员捡起旗帜”等复杂的动态交互。

量化结果显示：

在 Content Preservation（内容保持） 上，DynaEdit 显著优于 SDEdit 和 FlowAlign。
在与闭源领头羊 Runway Aleph 的 1v1 对比中，用户在多数场景下更倾向于选择 DynaEdit 的结果，认为其动作更自然且更符合原视频逻辑。

实验结果对比

深度洞察

DynaEdit 的成功再次印证了一个趋势：视频大模型本身就是一个物理引擎。 我们不需要重新训练它去理解“跳跃”或“碰撞”，只需要通过数学手段（如 SGA 和 ANC）去引导和约束它的去噪路径，就能把蕴含在模型权重里的物理常识“提取”出来。

然而，DynaEdit 并非完美。它高度依赖于底层 I2V 模型的生成能力。如果基础模型本身在处理精细面部或复杂物理逻辑时有缺陷，DynaEdit 也会继承这些局限性（例如论文提到的“双重帽子”Bug）。

总结

DynaEdit 为开源社区提供了一个强大的工具，让研究者能够在不需要数万张 A100 算力支持的情况下，仅凭现成的模型权重就能实现媲美顶级商业工具的视频操控效果。这对于未来的电影剪辑、动作特效创作具有深远的启发意义。

Find Similar Papers

Try Our Examples

查找最近其他针对视频生成模型（Video Diffusion/Flow Models）中高频抖动（High-frequency Jitter）问题的优化算法。
哪篇论文最早提出了 FlowEdit 这一 inversion-free 框架，本文提出的退火噪声相关性（ANC）与其相比有何本质改进？
目前有哪些研究在尝试将类似 DynaEdit 的非结构性编辑方法应用到多模态 3D 场景生成或 4D 物理仿真任务中？

Contents

[DeepMind] DynaEdit：无需微调，解锁视频动作与动态物理交互的深度编辑

1. TL;DR

2. 核心痛点：为什么“动”起来这么难？

3. 关键技术：DynaEdit 的核心配方

3.1. 1. 相似性引导聚合 (Similarity Guided Aggregation, SGA)

3.2. 2. 退火噪声相关性 (Annealed Noise Correlation, ANC)

4. 实验战绩

5. 深度洞察

6. 总结