本文提出了 OVIE,一种仅需单视图训练即可实现通用场景新视角合成(Novel View Synthesis, NVS)的方法。通过利用预训练单目深度估计模型生成“伪目标视图”作为监督信号,OVIE 摆脱了对稀缺多视图数据集的依赖,在 3000 万张野外单图上完成了大规模训练。
TL;DR
长期以来,单目新视角合成(Monocular NVS)一直被困在“必须有成对视角数据才能训练”的围城里。今日,来自 Kyutai 和 ENPC 的研究者们发布了 OVIE,高调宣布:训练 NVS,一张图就够了! OVIE 彻底抛弃了对多视图数据集的需求,在 3000 万张互联网随机图像上通过“伪监督”完成了训练。它不仅在泛化性上超越了 SOTA,更在推理速度上实现了 600 倍 的降维打击。
1. 痛点:被数据“勒死”的 3D 想象力
想要让 AI 像人一样看一张照片就能想象出侧面的样子,传统做法得喂给它数以万计的“成对照片”(即同一物体不同角度的照片)。但现实很残酷:
- 数据稀缺:像 RealEstate10K 这种高质量带位姿的数据集极难采集。
- 领域受限:模型在房产视频里练出来的,到了名胜古迹或森林野外就“抓瞎”。
- 效率低下的“重工业”:目前表现好的模型多基于 Diffusion(如 VIVID),跑一张图要好几秒,根本没法用于实时导航。
OVIE 的核心直觉: 现在的单目深度估计(Monocular Depth Estimation)已经非常成熟了。既然它能给出一张图的 3D 结构,我们为什么不拿这个结构去“变”出成对的样本呢?
2. 核心方法:以“伪”乱真的几何支架
OVIE 的训练过程非常巧妙,它引入了一个叫作 伪视角采样(Pseudo-Target Construction) 的机制:
- Lift (提升):用预训练的深度模型(如 MoGe-2)给单张源图注入深度信息,变成点云。
- Transform (变换):随机给样一个相机位姿变换 $T_{0 o 1}$。
- Project (投影):把点云投射到新相机平面,得到一张局部有缺失、但在几何上绝对正确的“伪目标图”。
- Train (训练):让模型学习如何补全这些缺失部分(Disocclusions),并保持纹理真实。
图 1:OVIE 训练流程。上层是利用深度估计器制造“假样本”,下层是模型学习如何根据位姿生成新图。
关键创新:推理时几何无关(Geometry-free) 这是 OVIE 最具商业价值的地方:虽然训练用了深度图,但 推理时完全不需要深度估计器或 3D 表示。它是一个纯粹的从图像+位姿到图像的 Feed-forward 网络,这极大地压缩了计算开销。
3. 实验战绩:速度与质量的双重狂飙
在 DL3DV 数据集(所有模型均未见过的测试集)上,OVIE 交出了亮眼的成绩单。
600 倍速的视觉奇迹
在 H100 GPU 上,OVIE 跑出了惊人的 116 FPS。作为对比,基于扩散模型的 VIVID 只有 0.19 FPS,GeoGPT 只有 0.17 FPS。这意味着 OVIE 是目前唯一能真正支持实时鼠标/键盘控制视角导航的通用模型。
图 2:PSNR 与 FPS 的关系。可以看到 OVIE 在右上角横扫全场。
艺术画作也能“动起来”
由于 OVIE 在 3000 万张涵盖各种风格的图像上训练过,它表现出了惊人的零样本泛化能力。即使是爱德华·霍普(Edward Hopper)或乔治·修拉(Seurat)的油画,OVIE 也能推断出其 3D 结构并合成视角。
图 3:OVIE 在油画等非真实感图像上的视角合成效果。
4. 深度洞察:为什么它比前人强?
- Metric Scale Awareness:因为训练中使用了 MoGe-2 这种具备“米制深度”的模型,OVIE 获得了对真实物理尺度的感知能力。近处的物体平移量大,远处的平移量小,视差效果极其自然。
- 数据规模 vs 架构复杂度:论文通过实验证明,模型参数增加带来的收益有限,但在海量单图数据(从 3K 扩展到 30M)上的持续训练才是性能提升的主驱动力(见图 5)。
- 掩码感知损失(Masked Loss):作者精细地排除了重投影中无效区域的干扰,确保感知损失(LPIPS + P-DINO)只聚焦在“有凭有据”的区域,提升了纹理还原的准确性。
5. 总结与未来
OVIE 证明了 NVS 领域的“Google Scalability”——不需要精雕细琢的手工数据集,只要监督信号(伪标签)给得够广,2D 图像库就是取之不竭的 3D 训练矿山。
局限性:虽然 116 FPS 很快,但在极端视角(如旋转 180 度)下,补全能力仍受限于生成器 GAN 的容量,未来转向更大规模的 Latent Transformer 架构可能会进一步提升图像质量上限。
一句话评论:自此之后,任何一张老照片、一幅名画,都可以成为通往沉浸式虚拟世界的入口。
