本文提出了 HiAR,一种用于高效自回归长视频生成的层次化去噪(Hierarchical Denoising)框架。该方法通过将去噪顺序从“块优先”转变为“步骤优先”,并引入双向注意力蒸馏的正向 KL 正则化,显著缓解了长视频生成中的误差累积与分布漂移问题,在 4 步去噪设定下实现了约 1.8 倍的推理加速。
TL;DR
生成无限长度且质量稳定的视频一直是 AI 界的圣杯。尽管自回归(AR)架构提供了理论上的可能性,但伴随而来的误差累积(Error Accumulation)常导致视频在数秒后迅速崩坏。本文介绍的 HiAR 框架通过一种极其直觉但创新的层次化去噪(Hierarchical Denoising)策略,配合正向 KL 正则化,不仅将视频生成的稳定性提升到了新高度,还顺带通过流水线并行榨取了 1.8 倍的推理速度。
1. 痛点:为什么长视频自回归总是“崩”?
在自回归扩散模型中,生成当前的视频块 时必须参考之前的块 。目前主流 SOTA 方法(如 Self-Forcing)存在两个致命伤:
- 误差放大效应:为了保证连续性,模型习惯于参考“洗干净”的上下文(噪声水平 )。然而,一旦前面的帧有一点点偏色或畸变,这种“全清”的参考会给模型一种假象——误差也是真实的信号,从而导致漂移迅速放大,出现过饱和或语义崩坏。
- 运动塌缩(Motion Collapse):在少步数蒸馏(Distillation)过程中,模型发现生成“几乎静止”的视频比生成“大动作”视频生成的 Loss 更低。这种“偷懒”行为会导致视频越往后拍越像幻灯片。
2. 核心方案:从“块优先”到“步骤优先”
HiAR 的核心直觉非常深刻:既然全清的上下文会放大误差,那我们为什么不带着噪声一起去噪?
2.1 层次化去噪 (Hierarchical Denoising)
以往的方法是:做完 Block 1 的所有去噪步骤,再去拿 Block 1 做参考生成 Block 2。 HiAR 的方法是:在去噪的第一步,所有 Block 同时进行;在这一步里,Block 2 参考 Block 1 的第一步输出,以此类推。

数学上,作者证明了上下文的最佳噪声水平应该是 (即当前步的输出噪声水平)。这在保持因果一致性的同时,最大程度地利用噪声掩盖了前一帧的预测误差。
2.2 逻辑上的“流水线并行”
这种层次化结构天然支持计算加速。因为在步骤 的 Block 仅依赖于其上一步(步骤 的 )和前一步(步骤 的 ),这意味着我们可以像处理 GPU 指令流水线一样,让不同的处理器同时处理不同 Block 的不同去噪阶段。实验表明,这种设计带来了 1.8倍 的实测加速。
3. 拯救运动多样性:正向 KL 正则化
为了防止模型在长训练周期中陷入“低运动快捷方式”,作者引入了 Forward-KL Regularizer。
- Insight:作者发现,即使在全序列可见(Bidirectional Attention)模式下训练,也能有效改善因果生成(Causal AR)时的动态效果。
- 做法:在训练的前几步(关键的低频结构形成期),强制学生模型去拟合教师模型输出的分布模式,而不是仅仅追求单点的精准匹配。
4. 实验战绩:谁才是稳如泰山?
在 20 秒的长视频生成测试中,HiAR 在 VBench 上的表现惊人:
- 漂移率(Drift Score):0.257,远低于同类竞品(如 CausVid 的 0.842)。
- 视觉保真度:即使到了 20 秒,肤色纹理和背景结构依然清晰,完全没有出现常见的“霓虹绿”或“色块化”现象。

下表展示了不同配置下的消融实验,结果显而易见:当上下文噪声水平设定为输入级(Input Level)或输出级(Output Level)时,长期稳定性显著提升。

5. 深度总结与启发
HiAR 的成功告诉我们:在生成式流水线中,并非“已知信息越清晰越好”。 通过控制信息的信噪比(SNR),我们可以人为地构建一个“容错空间”,让自回归累积的误差在噪声中被自然平滑。
对于未来的世界模型(World Models)研究,这种“步骤优先”的并行策略和噪声同步的上下文机制,或许是实现真·实时、真·无限长视频生成的关键技术路径。
局限性:尽管减少了漂移,但在极长跨度下(如分钟级),复杂的语义逻辑维护仍然是一个挑战。
