Stereo World Model: Camera-Guided Stereo Video Generation

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

Stereo World Model: Camera-Guided Stereo Video Generation

[CVPR 2025] StereoWorld：打破单目瓶颈，端到端立体视频世界模型新标杆

总结

问题

方法

结果

要点

摘要

本文提出了 StereoWorld，一种基于相机参数引导的立体视频世界模型。该模型通过统一的相机帧 RoPE 编码和立体感知注意力机制（Stereo-aware Attention），实现了端到端的双目视频生成，并在保持 SOTA 视觉质量的同时，显著提升了几何一致性和推理速度。

TL;DR

StereoWorld 是首个支持相机轨迹引导的端到端立体（Stereo）视频生成世界模型。它弃用了传统的“单目生成+深度估计+空洞填充”的繁琐流程，通过创新的 相机帧 RoPE 和 立体感知注意力 机制，在保持预训练视频模型强大生成能力的同时，直接输出具备底层几何一致性的双目视频。不仅推理速度提升 3 倍，更在 VR 渲染和具身智能场景中展现了卓越的几何推理能力。

痛点深挖：为什么单目世界模型不再够用？

当前主流的视频生成模型（如 Sora 等）在视觉美感上已臻化境，但在“物理常识”和“几何一致性”上仍存短板：

尺度歧义性 (Scale Ambiguity)：单目图像无法提供真实的绝对度量，导致模型在长距离相机导航中经常出现物体大小比例扭曲。
累积误差：基于重投影的离线立体转换方法严重依赖深度预测器的精度，容易在细微结构（如围栏、文字）处产生严重伪影。
计算开销：如果粗暴地将双目视频拼接输入 Transformer，计算量会随序列长度成平方级爆炸。

模型对比 图 1：StereoWorld 与传统单目/RGBD 世界模型的对比，展示了其在几何接地和 VR 适配上的优势

核心方法论：几何直觉与架构创新

1. 统一相机帧 RoPE (Unified Camera-Frame RoPE)

为了在视频扩散模型（DiT）中注入相机控制，作者没有采用传统的绝对坐标拼接（如 Plücker Ray），而是扩展了计算注意力时的 旋转位置编码 (RoPE)。

维度扩展：在预训练的 $d$ 维特征基础上，增加了一个专门的 $d_c$ 维度来承载相对相机参数。
权重初始化：实验证明，使用 Copy Init（复用时间注意力的权重）而非 Zero Init，能让模型在微调初期更快地捕获相机运动信号，同时不破坏预训练的视频生成质量。

2. 立体感知注意力 (Stereo-Aware Attention)

这是实现 3x 加速的关键。作者利用了立体视觉中的 极线约束 (Epipolar Prior)：在校正后的立体对中，左右眼的对应点只会在同一水平行上震荡。

分解策略：将复杂的 4D 全全局注意力分解为两个低维操作：
- 3D Intra-view Attn：处理视图内的时空动态。
- Attn-Row：仅在相同时间步的左右视图 token 间进行水平行上的跨视点交互。结果：计算复杂度从 $O((2F \cdot H \cdot W)^2)$ 骤降至接近单目模型水平。

方法架构图 图 2：StereoWorld 整体架构图，重点展示了 RoPE 注入和注意力分解机制

实验战绩：速度与精度的双重飞跃

在 TartanAir、Stereo4D 等多个数据集上的测试显示：

生成效率：在 H20 GPU 上，FPS 从基线方案的 0.1 左右提升至 0.49。通过长视频蒸馏技术，甚至能达到 5.6 FPS 的准实时水平。
几何精度：模型在未接受任何显式深度监督的情况下，生成的视差图（Disparity Map）比专门的 RGB-D 世界模型（如 Voyager, Aether）更干净、更符合场景逻辑。

实验结果对比 表 1：定量指标对比，StereoWorld 在相机精度和视点同步指标上全面领先

应用前景：VR 与具身智能

VR 原生渲染：直接生成双目视频，用户佩戴头显即可获得完美的深度沉浸感，无需任何深度图处理逻辑。
具身智能规划：通过给定的动作指令（如“put the lid on the teapot”），模型能准确生成具备真实物理遮挡和尺度感的后续序列，为机器人的离线策略训练提供高质量仿真环境。

总结与局限

StereoWorld 标志着生成式视频模型从“像素搬运”向“几何感知”的进化。尽管它在静态场景和规则基线下的表现非常惊艳，但作者也坦言：动态立体数据稀缺 依然是制约模型泛化能力的瓶颈。未来，如何利用更大规模的单目视频数据来反哺立体生成，将是该领域最具潜力的方向。

Takeaway: 立体视觉是通往真实物理世界模型的必经之路，StereoWorld 通过将几何约束隐式嵌入注意力机制，提供了一条优雅且高效的路径。

发现相似论文

试试这些示例

查找最近一年内将旋转位置编码 (RoPE) 应用于相机位姿参数注入的视频生成论文。
哪篇工作首次提出了在 Transformer 中利用极线几何 (Epipolar Geometry) 进行注意力机制简化的理论？
调研将立体视频生成模型 (Stereo World Model) 集成到强化学习具身智能策略中的最新实验进展。

[CVPR 2025] StereoWorld：打破单目瓶颈，端到端立体视频世界模型新标杆

1. TL;DR

2. 痛点深挖：为什么单目世界模型不再够用？

3. 核心方法论：几何直觉与架构创新

3.1. 1. 统一相机帧 RoPE (Unified Camera-Frame RoPE)

3.2. 2. 立体感知注意力 (Stereo-Aware Attention)

4. 实验战绩：速度与精度的双重飞跃

5. 应用前景：VR 与具身智能

6. 总结与局限