CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

[CVPR 2026] CubeComposer：告别模糊，首个原生 4K 360° 全景视频自回归生成架构

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 CubeComposer，这是首个能够从透视视频（Perspective Video）直接原生生成 4K 分辨率 360° 全景视频的时空自回归扩散模型。该方法通过将全景视频分解为 CubeMap（立方体贴图）的六个面，并采用精心设计的时空顺序进行自回归合成，成功突破了传统扩散模型在显存开销上的限制。

TL;DR

在虚拟现实（VR）领域，沉浸式体验与视频分辨率呈正相关。然而，现有的 AI 全景生成模型往往卡在 1K 的“清晰度天花板”上。腾讯 ARC 实验室与香港中文大学联合提出的 CubeComposer 另辟蹊径，通过时空自回归（Spatio-Temporal Autoregressive）框架，配合线性级复杂度的稀疏上下文注意力，首次在无后续超分的情况下实现了原生 4K 360° 视频的生成。

1. 痛点：1K 原生生成的窒息限制

由于全景视频需要覆盖 360°×180° 的球形视场，其像素总量远超标准视频。现有的视频扩散模型（如 SVD, CogVideoX）受限于 Transformer 的二次方复杂度，生成 4K 视频所需的显存开销是天文数字。

目前的妥协方案通常是：

先生成 1024×512 的低分辨率视频。
再用 VEnhancer 等工具进行后期超分。

但这会导致一个严重问题：超分模型只是在“平滑插值”，它并不知道全景空间中被遮挡区域的真实几何逻辑，常常产生细节缺失或边缘重影。

2. 核心直觉：分而治之，时空交织

CubeComposer 的核心 Insight 在于：与其一次性吞下整个球体，不如按照逻辑顺序一个面一个面地“画”出来。

2.1 CubeMap 表示法

不同于传统的 Equirectangular（等距柱状投影）会导致极点严重畸变，作者选择了 CubeMap。它将球体投影到立方体的 6 个面上，与现有的图像/视频预训练模型分布更接近。

2.2 时空自回归规划（Spatio-Temporal Planning）

模型并非随机生成。它会优先生成含有输入透视视频信息（Coverage）最多的面。这种**覆盖度导向（Coverage-guided）**的策略确保了生成的起点是确定性最高的，随后将这些可靠的几何和光影信息作为 Context 传播到后续的生成步骤中。

模型架构图 图 1：CubeComposer 整体流水线，通过时空窗口和面顺次生成。

3. 技术深挖：如何在自回归中保持“无缝”？

自回归最怕两件事：显存炸掉和接缝太丑。

3.1 线性级复杂度的稀疏上下文注意力

当生成当前面时，需要参考历史生成的面（History）和未来的透视片段（Future Fragments）。如果使用 Full Attention，Token 数量会迅速爆炸。

解决方案：作者设计了 Sparse Context Attention。生成序列进行全自我注意力计算，但上下文序列仅通过对角带状掩码局部关注，将复杂度降为 $O (C \cdot K)$ 。这使得模型能吃下超长上下文而不崩掉显存。

3.2 连续性感知（Continuity-aware）

为了避免立方体棱线处的“撕裂感”，CubeComposer 引入了：

Cube-aware Positional Encoding：重新映射位置编码，让模型感知到 U（上）面和 F（前）面在拓扑上是相连的。
Padding & Blending：在生成每个面时，主动借入相邻面的 Latent 边界进行 Padding，最后在像素空间进行加权融合。

实验设计对比 图 2：连续性感知设计的细节，通过拓扑对齐解决拼缝问题。

4. 实验结果：降维打击

研究团队构建了 4K360Vid 数据集，包含 1.1 万个高质量 4K 剪辑。

定量分析：如表 1 所示，CubeComposer 在 4K 分辨率下的 FVD（视频一致性）和 I.Q.（成像质量）对比以往方法具有压倒性优势。

实验结果表格 表 1：在 ODV360 等数据集上的对比结果。

定性表现：观察图 3，相比 Argus 或 ViewPoint 产生的模糊感，CubeComposer 生成的纹理（如建筑表面的几何细节）极其锐利，且由于考虑了未来帧的 Coverage，动态物体的运动轨迹非常连贯。

图 3：视觉对比展示，我们的 4K 原生生成在精细度上远超“低清+强行超分”组合。

5. 总结与反思 (Academic Insight)

CubeComposer 实际上是在计算资源和生成质量之间做了一次教科书级的博弈。它承认了当前的算力无法一次性完成 4K DiT 模型推理，因此通过自回归逻辑将负荷分摊到时间维度上。

不足之处：目前该方法仍需逐面推理，虽然单步显存降低了，但总推理时长相比并行生成会有所增加。未来结合 Streaming（流式）生成 来摊平计算延迟，可能是 360° 实时体验的终极方案。

Takeaway for Practitioners:
如果你正在开发 VR 内容生成器，CubeComposer 告诉我们：不要执着于一次性出大图，合理的时空分块规划 + 邻接面的拓扑对齐，才是通往 4K 沉浸感的高速公路。

Find Similar Papers

Try Our Examples

查找最近其他尝试解决视频生成中 CubeMap 表示法（Cubemap Representation）拼缝与畸变问题的论文。
哪篇论文最早在扩散模型中提出类似 DiT 的长序列线性注意力改进，并分析其与本文稀疏上下文注意力的关联？
有哪些当前领先的大规模 360° 全景视频数据集，它们在分辨率和标注质量上与本文提出的 4K360Vid 有何异同？

Contents

[CVPR 2026] CubeComposer：告别模糊，首个原生 4K 360° 全景视频自回归生成架构

1. TL;DR

2. 1. 痛点：1K 原生生成的窒息限制

3. 2. 核心直觉：分而治之，时空交织

3.1. 2.1 CubeMap 表示法

3.2. 2.2 时空自回归规划（Spatio-Temporal Planning）

4. 3. 技术深挖：如何在自回归中保持“无缝”？

4.1. 3.1 线性级复杂度的稀疏上下文注意力

4.2. 3.2 连续性感知（Continuity-aware）

5. 4. 实验结果：降维打击

6. 5. 总结与反思 (Academic Insight)