HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

[CVPR 2026 预研] HiAR: 层次化去噪打破长视频自回归生成的“质量崩溃”魔咒

总结

问题

方法

结果

要点

摘要

本文提出了 HiAR，一种用于高效自回归长视频生成的层次化去噪（Hierarchical Denoising）框架。该方法通过将去噪顺序从“块优先”转变为“步骤优先”，并引入双向注意力蒸馏的正向 KL 正则化，显著缓解了长视频生成中的误差累积与分布漂移问题，在 4 步去噪设定下实现了约 1.8 倍的推理加速。

TL;DR

生成无限长度且质量稳定的视频一直是 AI 界的圣杯。尽管自回归（AR）架构提供了理论上的可能性，但伴随而来的误差累积（Error Accumulation）常导致视频在数秒后迅速崩坏。本文介绍的 HiAR 框架通过一种极其直觉但创新的层次化去噪（Hierarchical Denoising）策略，配合正向 KL 正则化，不仅将视频生成的稳定性提升到了新高度，还顺带通过流水线并行榨取了 1.8 倍的推理速度。

1. 痛点：为什么长视频自回归总是“崩”？

在自回归扩散模型中，生成当前的视频块 $B_{n}$ 时必须参考之前的块 $B_{< n}$ 。目前主流 SOTA 方法（如 Self-Forcing）存在两个致命伤：

误差放大效应：为了保证连续性，模型习惯于参考“洗干净”的上下文（噪声水平 $t = 0$ ）。然而，一旦前面的帧有一点点偏色或畸变，这种“全清”的参考会给模型一种假象——误差也是真实的信号，从而导致漂移迅速放大，出现过饱和或语义崩坏。
运动塌缩（Motion Collapse）：在少步数蒸馏（Distillation）过程中，模型发现生成“几乎静止”的视频比生成“大动作”视频生成的 Loss 更低。这种“偷懒”行为会导致视频越往后拍越像幻灯片。

2. 核心方案：从“块优先”到“步骤优先”

HiAR 的核心直觉非常深刻：既然全清的上下文会放大误差，那我们为什么不带着噪声一起去噪？

2.1 层次化去噪 (Hierarchical Denoising)

以往的方法是：做完 Block 1 的所有去噪步骤，再去拿 Block 1 做参考生成 Block 2。 HiAR 的方法是：在去噪的第一步，所有 Block 同时进行；在这一步里，Block 2 参考 Block 1 的第一步输出，以此类推。

模型架构与流程对比

数学上，作者证明了上下文的最佳噪声水平应该是 $t_{c}^{*} = t_{j + 1}$ （即当前步的输出噪声水平）。这在保持因果一致性的同时，最大程度地利用噪声掩盖了前一帧的预测误差。

2.2 逻辑上的“流水线并行”

这种层次化结构天然支持计算加速。因为在步骤 $j$ 的 Block $n$ 仅依赖于其上一步（步骤 $j$ 的 $B_{n - 1}$ ）和前一步（步骤 $j - 1$ 的 $B_{n}$ ），这意味着我们可以像处理 GPU 指令流水线一样，让不同的处理器同时处理不同 Block 的不同去噪阶段。实验表明，这种设计带来了 1.8倍 的实测加速。

3. 拯救运动多样性：正向 KL 正则化

为了防止模型在长训练周期中陷入“低运动快捷方式”，作者引入了 Forward-KL Regularizer。

Insight：作者发现，即使在全序列可见（Bidirectional Attention）模式下训练，也能有效改善因果生成（Causal AR）时的动态效果。
做法：在训练的前几步（关键的低频结构形成期），强制学生模型去拟合教师模型输出的分布模式，而不是仅仅追求单点的精准匹配。

4. 实验战绩：谁才是稳如泰山？

在 20 秒的长视频生成测试中，HiAR 在 VBench 上的表现惊人：

漂移率（Drift Score）：0.257，远低于同类竞品（如 CausVid 的 0.842）。
视觉保真度：即使到了 20 秒，肤色纹理和背景结构依然清晰，完全没有出现常见的“霓虹绿”或“色块化”现象。

20秒视频生成对比图

下表展示了不同配置下的消融实验，结果显而易见：当上下文噪声水平设定为输入级（Input Level）或输出级（Output Level）时，长期稳定性显著提升。

消融实验结果

5. 深度总结与启发

HiAR 的成功告诉我们：在生成式流水线中，并非“已知信息越清晰越好”。 通过控制信息的信噪比（SNR），我们可以人为地构建一个“容错空间”，让自回归累积的误差在噪声中被自然平滑。

对于未来的世界模型（World Models）研究，这种“步骤优先”的并行策略和噪声同步的上下文机制，或许是实现真·实时、真·无限长视频生成的关键技术路径。

局限性：尽管减少了漂移，但在极长跨度下（如分钟级），复杂的语义逻辑维护仍然是一个挑战。

发现相似论文

试试这些示例

查找最近其他试图解决自回归视频扩散模型中误差累积（Error Propagation）或分布漂移（Distribution Drift）问题的论文。
哪篇论文最早提出了 Diffusion Forcing 或 Self-Forcing 的概念，本文提出的层次化去噪与之在时序因果性上有何本质不同？
针对视频生成模型中的“运动塌缩”（Motion Collapse）或低运动快捷方式，除了正向 KL 正则化外，还有哪些代表性的补救方案？

[CVPR 2026 预研] HiAR: 层次化去噪打破长视频自回归生成的“质量崩溃”魔咒

1. TL;DR

2. 1. 痛点：为什么长视频自回归总是“崩”？

3. 2. 核心方案：从“块优先”到“步骤优先”

3.1. 2.1 层次化去噪 (Hierarchical Denoising)

3.2. 2.2 逻辑上的“流水线并行”

4. 3. 拯救运动多样性：正向 KL 正则化

5. 4. 实验战绩：谁才是稳如泰山？

6. 5. 深度总结与启发