One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

[arXiv 2026] OVIE：单图训练即巅峰，600倍速引领实时新视角合成新纪元

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 OVIE，一种仅需单视图训练即可实现通用场景新视角合成（Novel View Synthesis, NVS）的方法。通过利用预训练单目深度估计模型生成“伪目标视图”作为监督信号，OVIE 摆脱了对稀缺多视图数据集的依赖，在 3000 万张野外单图上完成了大规模训练。

TL;DR

长期以来，单目新视角合成（Monocular NVS）一直被困在“必须有成对视角数据才能训练”的围城里。今日，来自 Kyutai 和 ENPC 的研究者们发布了 OVIE，高调宣布：训练 NVS，一张图就够了！ OVIE 彻底抛弃了对多视图数据集的需求，在 3000 万张互联网随机图像上通过“伪监督”完成了训练。它不仅在泛化性上超越了 SOTA，更在推理速度上实现了 600 倍 的降维打击。

1. 痛点：被数据“勒死”的 3D 想象力

想要让 AI 像人一样看一张照片就能想象出侧面的样子，传统做法得喂给它数以万计的“成对照片”（即同一物体不同角度的照片）。但现实很残酷：

数据稀缺：像 RealEstate10K 这种高质量带位姿的数据集极难采集。
领域受限：模型在房产视频里练出来的，到了名胜古迹或森林野外就“抓瞎”。
效率低下的“重工业”：目前表现好的模型多基于 Diffusion（如 VIVID），跑一张图要好几秒，根本没法用于实时导航。

OVIE 的核心直觉： 现在的单目深度估计（Monocular Depth Estimation）已经非常成熟了。既然它能给出一张图的 3D 结构，我们为什么不拿这个结构去“变”出成对的样本呢？

2. 核心方法：以“伪”乱真的几何支架

OVIE 的训练过程非常巧妙，它引入了一个叫作 伪视角采样（Pseudo-Target Construction） 的机制：

Lift (提升)：用预训练的深度模型（如 MoGe-2）给单张源图注入深度信息，变成点云。
Transform (变换)：随机给样一个相机位姿变换 $T_{0 o 1}$。
Project (投影)：把点云投射到新相机平面，得到一张局部有缺失、但在几何上绝对正确的“伪目标图”。
Train (训练)：让模型学习如何补全这些缺失部分（Disocclusions），并保持纹理真实。

模型架构图 图 1：OVIE 训练流程。上层是利用深度估计器制造“假样本”，下层是模型学习如何根据位姿生成新图。

关键创新：推理时几何无关（Geometry-free） 这是 OVIE 最具商业价值的地方：虽然训练用了深度图，但 推理时完全不需要深度估计器或 3D 表示。它是一个纯粹的从图像+位姿到图像的 Feed-forward 网络，这极大地压缩了计算开销。

3. 实验战绩：速度与质量的双重狂飙

在 DL3DV 数据集（所有模型均未见过的测试集）上，OVIE 交出了亮眼的成绩单。

600 倍速的视觉奇迹

在 H100 GPU 上，OVIE 跑出了惊人的 116 FPS。作为对比，基于扩散模型的 VIVID 只有 0.19 FPS，GeoGPT 只有 0.17 FPS。这意味着 OVIE 是目前唯一能真正支持实时鼠标/键盘控制视角导航的通用模型。

性能对比图 图 2：PSNR 与 FPS 的关系。可以看到 OVIE 在右上角横扫全场。

艺术画作也能“动起来”

由于 OVIE 在 3000 万张涵盖各种风格的图像上训练过，它表现出了惊人的零样本泛化能力。即使是爱德华·霍普（Edward Hopper）或乔治·修拉（Seurat）的油画，OVIE 也能推断出其 3D 结构并合成视角。

艺术画作泛化结果 图 3：OVIE 在油画等非真实感图像上的视角合成效果。

4. 深度洞察：为什么它比前人强？

Metric Scale Awareness：因为训练中使用了 MoGe-2 这种具备“米制深度”的模型，OVIE 获得了对真实物理尺度的感知能力。近处的物体平移量大，远处的平移量小，视差效果极其自然。
数据规模 vs 架构复杂度：论文通过实验证明，模型参数增加带来的收益有限，但在海量单图数据（从 3K 扩展到 30M）上的持续训练才是性能提升的主驱动力（见图 5）。
掩码感知损失（Masked Loss）：作者精细地排除了重投影中无效区域的干扰，确保感知损失（LPIPS + P-DINO）只聚焦在“有凭有据”的区域，提升了纹理还原的准确性。

5. 总结与未来

OVIE 证明了 NVS 领域的“Google Scalability”——不需要精雕细琢的手工数据集，只要监督信号（伪标签）给得够广，2D 图像库就是取之不竭的 3D 训练矿山。

局限性：虽然 116 FPS 很快，但在极端视角（如旋转 180 度）下，补全能力仍受限于生成器 GAN 的容量，未来转向更大规模的 Latent Transformer 架构可能会进一步提升图像质量上限。

一句话评论：自此之后，任何一张老照片、一幅名画，都可以成为通往沉浸式虚拟世界的入口。

Find Similar Papers

Try Our Examples

查找最近一年内其他利用预训练深度模型或大模型先验来消除多视图监督（Unpaired/Monocular Training）的新视角合成论文。
哪篇论文最早提出了将 2D 图像“提升”为点云后再重投影进行训练的思路，本文在损失函数设计（如 Masked Perceptual Loss）上做了哪些针对性改进？
有哪些研究正尝试将 OVIE 这种高效的 Geometry-free 架构应用到移动端增强现实（AR）或实时机器人路径规划导航中？

Contents

[arXiv 2026] OVIE：单图训练即巅峰，600倍速引领实时新视角合成新纪元

1. TL;DR

2. 1. 痛点：被数据“勒死”的 3D 想象力

3. 2. 核心方法：以“伪”乱真的几何支架

4. 3. 实验战绩：速度与质量的双重狂飙

4.1. 600 倍速的视觉奇迹

4.2. 艺术画作也能“动起来”

5. 4. 深度洞察：为什么它比前人强？

6. 5. 总结与未来