DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation

[CVPR 2026] DCARL：分而治之，突破自回归视频生成的“漂移咒语”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DCARL，一种针对长轨迹视频生成的“分而治之”自回归框架。该方法通过解耦全局关键帧生成与局部密集帧插值，结合视频扩散模型（VDM），在保持高保真度的同时，实现了长达 32 秒的稳定、可控视频生成。

TL;DR

长轨迹视频生成一直是世界模型领域的“硬骨头”。传统的自回归（Autoregressive）模型虽然理论上能无限生成，但现实中常陷入视觉崩溃和轨迹偏离的泥潭。南加州大学团队提出的 DCARL 框架，通过一套“分而治之”的机制，利用全局关键帧（Keyframes）作为结构锚点，成功实现了 32 秒高保真、精准可控的视频创作，将长序列生成的稳定性推向了新高度。

痛点深挖：自回归消失的稳定性

在生成长达数十秒甚至分钟级的视频时，现有的视频扩散模型（VDMs）面临两大挑战：

计算爆炸：一次性预测几百帧的显存成本高不可攀。
曝光偏差（Exposure Bias）：自回归模型在每一步生成时都会引入微小误差。随着时间推移，这些误差会像滚雪球一样累积，导致后续帧彻底偏离原始相机轨迹（ATE 激增）或产生严重的视觉伪影。

作者通过数学推导（Proposition 1）证明：在没有修正机制的情况下，纯自回归生成的累积误差随长度 $N$ 呈线性甚至指数级增长（ $O (N)$ 或 $O (L^{N})$ ）。

方法论详解：全局锚定与局部插值

DCARL 的核心直觉是：先规划骨架，再填充血肉。

1. 架构解析：双生成器协同

DCARL 放弃了单一的自回归链路，转而构建了两个专门设计的生成器：

关键帧生成器 (Keyframe Generator)：它不再按照时间顺序一个一个生，而是“联合”生成跨越整个时间轴的稀疏关键帧。这种非因果的设计确立了全局的语义和几何一致性，消除了长程漂移。
插值生成器 (Interpolation Generator)：它在左右关键帧的约束下，配合上一段生成的历史帧，填充中间的密集帧。

模型架构图

2. 三大核心创新设计

为了解决插值过程中的常见病灶，作者引入了：

Spatial-Structural Preservation：关键帧编码时不进行时间压缩，确保大幅度相机运动下的空间细节不丢失。
Motion-Inductive Noisy Conditioning：如果直接给模型喂干净的关键帧，模型会学会偷懒（直接复制像素），导致视频卡顿。通过给条件帧加入适量噪声，逼迫模型去学习“如何运动”。
Seamless Boundary Consistency：通过潜在空间替换（Latent Substitution）和一致性训练，消除了段落连接处的闪烁和跳变。

实验与结果：统治级的长序列稳定性

在 OpenDV-YouTube 这一极具挑战性的真实驾驶数据集上，DCARL 展现了惊人的耐力。

画质与一致性：在 24-32 秒的超长区间，传统方法（如 DiffF）的 FVD 往往飙升至 1000 以上，而 DCARL 依然维持在 300 左右。
相机依从性：相较于 SEVA 等强基线，DCARL 的旋转误差 ARE 下降了约 10%，平移误差 ATE 也有显著优化。

实验结果对比

消融实验揭秘

关键帧锚点到底有多重要？实验显示，一旦去掉关键帧约束（w/o Keyframe），模型在面对大角度弯道时会彻底“失控”，场景发生扭曲且轨迹偏离。

消融实验可视化

深度洞察：未来世界模型的基石

DCARL 的成功不仅在于 SOTA 的分数，更在于它提供了一种误差收敛的理论证明。通过将误差限制在段落内部，它打破了长序列生成“必崩”的魔咒。

局限性与展望：尽管表现卓越，DCARL 目前在处理极端长距离感知（如超远处的微小地标锚定）和罕见长尾场景（如穿过无照明隧道后的突变）时仍有挑战。作者指出，未来的研究可以将该框架与 3D 基础模型蒸馏结合，进一步提升关键帧的物理精确度。

总结 (Takeaway)：对于自动驾驶和虚拟制作者来说，DCARL 证明了自回归模型不再是“不可控”的代名词。只要通过分层架构引入合理的全局先验，长轨迹的高质量实时仿真指日可待。

Find Similar Papers

Try Our Examples

查找最近一年内利用层次化结构或全局锚点策略改进视频扩散模型长序列生成稳定性的相关论文。
追溯 Motion-Inductive Noisy Conditioning 的理论起源，并调研其他在扩散模型中通过注入噪声缓解“复制粘贴”捷径的研究。
探索 DCARL 框架在自动驾驶仿真外，如无人机复杂航拍轨迹合成或虚拟现实场景漫游中的应用潜力研究。

Contents

[CVPR 2026] DCARL：分而治之，突破自回归视频生成的“漂移咒语”

1. TL;DR

2. 痛点深挖：自回归消失的稳定性

3. 方法论详解：全局锚定与局部插值

3.1. 1. 架构解析：双生成器协同

3.2. 2. 三大核心创新设计

4. 实验与结果：统治级的长序列稳定性

4.1. 消融实验揭秘

5. 深度洞察：未来世界模型的基石