WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] Video-to-World:修正视频生成中的“几何漂移”,打造完美一致的 3D 虚拟世界
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了名为 Video-to-World 的新方法,旨在解决视频扩散模型(VDM)生成的帧序列在 3D 空间中不一致(Generative Drift)的问题。通过结合几何基础模型与非刚性 ICP 对齐技术,该方法成功将写实但不一致的视频转化为高质量、可实时探索的 3D Gaussian Splatting 世界。

TL;DR

视频扩散模型(VDM)生成的视频虽然好看,但在 3D 空间里往往是“扭曲”的。慕尼黑工业大学(TUM)的研究团队提出了 Video-to-World,一种通过非刚性几何对齐(Non-rigid Alignment)来修正 VDM 生成缺陷的方法。它不需要重新训练庞大的生成模型,仅靠重建侧的轻量级优化,就能将不一致的视频帧转化为高保真、可全向探索的 3D Gaussian Splatting 场景。

1. 痛点:为什么“写实”的视频无法直接变成 3D 世界?

目前的视频生成模型(如 Sora、Wan-2.2)具备极强的常识理解力,但它们在生成过程中存在一个致命伤:生成性漂移(Generative Drift)。这意味着当你让模型绕着一个物体转一圈时,物体的形状、位置甚至纹理会随着每一帧的生成发生细微的非刚性形变。

如果使用传统的 SFM 或刚性 3DGS 重建:

  • 几何重叠:同一物体的表面在 3D 空间中会出现多层重影。
  • 浮空伪影:由于相机参数与几何不匹配,背景中会出现大量类似云雾的漂浮碎片。
  • 纹理模糊:为了强行拟合不一致的像素,优化过程会使纹理变得模糊。

2. 核心直觉:将不一致视为“非刚性运动”

作者的巧妙之处在于:既然视频帧之间是不一致的,与其强行用“刚性”的 3D 框架去套,不如把这些不一致看作是物体在进行微小的非刚性运动

2.1 整体架构流程

模型架构图

  1. 场景初始化:利用几何基础模型(GFM,如 DepthAnything-3)为每一帧估计深度和相机姿态,将其“提起”(Lift)为原始点云。
  2. 非刚性 ICP 对齐:这是本文的核心。作者通过一个 Hashgrid MLP 预测每个点的 Twist 坐标,将各帧点云非刚性地对齐到一个统一的 Canonical 空间。
  3. 逆变形渲染(Inverse Deformation Rendering):在最后的 Gaussian Splatting 优化阶段,高斯球分布在 Canonical 空间,但渲染时会先利用逆向变形网络将其变换回“有缺陷”的视频帧空间进行损失计算。这样既保留了视频的高保真纹理,又确保了 3D 结构的统一。

3. 实验战绩:化腐朽为神奇

在对比实验中,Video-to-World 展示了远超基线的 viewpoint stability。

实验结果对比

  • 一致性:在 WorldScore 评测中,相比于目前最强的 3DGS-MCMC 方法,其 3D 一致性和光度一致性分别从 60s 提升到了 80s 这一数量级。
  • 视觉保真度:渲染图几乎保留了 VDM 生成的所有细节,消除了由于几何对齐不良导致的颗粒感。

消融分析 (Ablation Study)

作者证明,如果没有“逆变形(Inverse Deformation)”损失(即上图中的 no inv),即便点云对齐了,最终的渲染效果仍会因为强行拟合不一致的像素而变得极其模糊。

消融实验可视化

4. 深度洞察与总结

该工作的学术定位

Video-to-World 是对“视频生成驱动 3D 重建”这一路径的重要修补。在学界追求“One-step 3D 垂直生成”的同时,本文提醒我们:现有的高质量 VDM 已经包含了足够的几何先验,只是需要合适的“胶水”(非刚性配准)来消除其概率随机性带来的不一致。

局限性分析

尽管解决了几何偏移,但该方法仍无法处理 VDM 的瞬间幻觉(Hallucinations),例如原本没有的路灯在镜头转回来时突然出现。未来的研究方向可能需要引入鲁棒性损失函数(Robust Losses)来自动剔除这类“幻觉帧”。

结论:这项工作为机器人训练数据生成、VR/游戏场景快速建模提供了一种极具吸引力的插件化方案,真正让“视频即世界”成为了可能。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图利用非刚性变形技术解决 3D 重建中多视点几何不一致问题的论文。
  • 哪篇论文最早引入了迭代最近点(ICP)算法在非刚性物体配准中的应用,本文的 Frame-to-Model 机制与其有何改进?
  • 研究如何将本文提出的非刚性对齐框架应用到动态视频生成或实时多模态场景仿真中。
Contents
[CVPR 2026] Video-to-World:修正视频生成中的“几何漂移”,打造完美一致的 3D 虚拟世界
1. TL;DR
2. 1. 痛点:为什么“写实”的视频无法直接变成 3D 世界?
3. 2. 核心直觉:将不一致视为“非刚性运动”
3.1. 2.1 整体架构流程
4. 3. 实验战绩:化腐朽为神奇
4.1. 消融分析 (Ablation Study)
5. 4. 深度洞察与总结
5.1. 该工作的学术定位
5.2. 局限性分析