Efficient Video Diffusion Models: Advancements and Challenges

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Efficient Video Diffusion Models: Advancements and Challenges

视频扩散模型加速全景：从算法直觉到实时部署的跨越

Summary

Problem

Method

Results

Takeaways

Abstract

本文是学术界首篇系统性综述视频扩散模型（Video Diffusion Models, VDMs）加速技术的综述论文。文章全面涵盖了步骤蒸馏、高效注意力机制、模型压缩及缓存/轨迹优化四大核心范式，并探讨了在 Sora 等大模型时代下的实时视频生成挑战。

TL;DR

视频生成领域正经历从“能画”到“好用”的范式转移。这篇来自香港科技大学等机构的资深综述，首次拆解了视频扩散模型（VDM）加速的底层逻辑。它告诉我们：视频加速不是简单的“快”，而是在NFE（步数）、Per-step cost（单步开销）以及时序稳定性之间的系统博弈。

背景定位：为什么视频加速比图像难得多？

在图像领域，加速可能意味着从 20 步降到 1 步；但在视频领域，计算量随着帧数和分辨率呈爆炸式增长。一个 1 分钟的视频可能包含数万个 Token，在 DiT（Diffusion Transformer）架构下，Attention 操作的显存需求和延迟会瞬间击穿单张 H100 的上限。

作者指出，目前的加速研究正处于爆发期（见下图），其中“步骤蒸馏”和“稀疏注意力”是目前的两大主战场。

加速算法分布与趋势

核心方法论：加速的四大支柱

1. 步骤蒸馏 (Step Distillation)：消灭 NFE

这是最强力的杠杆。

一致性蒸馏 (Consistency Distillation)：让模型学习“自洽性”，从任意噪点一步跳到轨迹原点。
分布匹配蒸馏 (DMD/DMD2)：目前的一线技术，通过判别器和得分函数让低步数模型输出的分布向高步数模型对齐。
因果/实时蒸馏 (Streaming Distillation)：针对实时交互场景，将传统的双向注意力模型转化为因果模型（Causal Model），解决“边收信息边生成”的暴露偏差（Exposure Bias）。

2. 高效注意力 (Efficient Attention)：打破复杂度诅咒

注意力机制是视频 DiT 的头号功臣，也是显存杀手。

静态稀疏 (Static Sparse)：固定采样模式（如 Diagonal 或 Window），对硬件友好但缺乏灵活性。
动态稀疏 (Dynamic Sparse)：根据内容动态决定哪些 Token 重要。例如 SpargeAttention 能在推理时训练无关地跳过无关计算。
线性化与混合 (Linear-Hybrid)：虽然理论复杂度是线性的，但在视频任务中往往会丢失细节，因此目前的 SOTA 多采用“精确+线性”的混合模式（如 SLA）。

高效注意力分类图

3. 模型压缩与量化 (Compression & Quantization)

PTQ (Post-Training Quantization)：对 VDM 而言，关键在于“时间戳感知”。去噪在不同阶段的激活分布完全不同，因此需要动态缩放因子（如 TaQ-DiT）。
VAE 压缩：直接在源头截流，减少 Latent 序列的长度。

4. 缓存与轨迹优化 (Cache & Trajectory)

特征缓存 (Feature Cache)：相邻去噪步骤的特征图其实很像，DiCache 等方法利用这种冗余跳过中间层的计算。
并行计算：利用底层系统的并行性（Patch Parallelism, Sequence Parallelism）来换取延迟。

实验与前沿战绩：速度与质量的权衡

论文系统对比了各种加速方案在 VBench 和 FVD 指标上的表现。在复合加速（Composite Acceleration）路径下，将步骤蒸馏与稀疏注意力结合（例如 FastVideo 项目）已经能让高清视频生成接近实时性能。

加速方法全景表

深度洞察：未来的三个关键方向

复合加速的“误差累积”效应：当我们同时使用 4-bit 量化、稀疏注意力和单步蒸馏时，累积的近似误差会显著降低视频的“运动丝滑度”。未来的研究重点将是显式的误差平衡与补偿机制。
软硬协同设计：稀疏注意力在算法上很美，但如果 kernel 实现不到位（如非对齐内存访问），实际速度可能不如暴力全量计算。Triton 和 TileLang 等底层工具将成为算法工程师的必备。
从离线到实时流式：生成式世界模型（World Models）需要无限长的视频流，传统的“生成 10 秒看 10 秒”模式将演变为真正的低延迟预测，这不仅是加速问题，更是状态空间管理 (KV-Cache Management) 问题。

总结

视频加速不只是一场关于 FLOPs 的数字化算法游戏，更是一场关于硬件极限、认知冗余与数学近似的精密平衡。这篇论文为我们在疯狂迭代的生成式视频浪潮中，提供了一份极具工程参考价值的航海图。

Find Similar Papers

Try Our Examples

查找最近一年内试图解决视频 DiT 系统中 KV-Cache 显存溢出问题的 Sparse Attention 最新论文。
哪篇论文最早提出了分布匹配蒸馏 (DMD)，本文提到的 DMD2 在视频生成任务中是如何处理时空一致性的？
目前有哪些研究在尝试利用 Mixture-of-Experts (MoE) 架构来平衡视频生成模型的规模与推理效率？

Contents

视频扩散模型加速全景：从算法直觉到实时部署的跨越

1. TL;DR

2. 背景定位：为什么视频加速比图像难得多？

3. 核心方法论：加速的四大支柱

3.1. 1. 步骤蒸馏 (Step Distillation)：消灭 NFE

3.2. 2. 高效注意力 (Efficient Attention)：打破复杂度诅咒

3.3. 3. 模型压缩与量化 (Compression & Quantization)

3.4. 4. 缓存与轨迹优化 (Cache & Trajectory)

4. 实验与前沿战绩：速度与质量的权衡

5. 深度洞察：未来的三个关键方向

6. 总结