WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] VGGRPO:无需解码,在 Latent 空间炼就几何一致的世界模型
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VGGRPO (Visual Geometry GRPO),一种旨在提升视频生成模型几何一致性的后训练框架。该方法通过构建潜在几何模型 (LGM) 将视频扩散模型的 Latent 空间直接连接至几何基础模型,并利用组相对策略优化 (GRPO) 在 Latent 空间内进行高效的强化学习对齐,实现了在不经过 VAE 解码的情况下显著增强视频的 3D 结构稳定性和摄像机运动平滑度。

TL;DR

Google 与哥本哈根大学等机构的研究者近日发布了 VGGRPO (Visual Geometry GRPO)。该工作直击视频生成中的“几何崩坏”痛点,通过在 VAE 的 Latent 空间直接构建几何奖励模型,利用强化学习对齐手段,让视频模型在生成动态场景时能保持极高的 3D 一致性和摄像机平滑度。最惊人的是,它完全摆脱了高昂的 VAE 重复解码成本,效率与效果双杀前作。

动机:为什么视频生成的“世界感”这么难?

目前的 SOTA 视频模型(如 Sora, Wan2.1)虽然视觉画质惊人,但往往经不起“几何推敲”:

  • 几何漂移 (Geometric Drift):背景物体在镜头移动时忽大忽小。
  • 摄像机抖动:生成的轨迹缺乏物理真实感,伴随跳变。
  • 维度受限:先前改进几何的方法(如 Epipolar-DPO)大多基于静态场景假设,遇到复杂动态物体直接“破功”。

以往的对齐方法(Alignment)通常需要把 Latent 还原回像素,再丢进几何模型算得分。这种做法不仅慢得离谱,而且像素层的噪声会干扰优化信号,导致训练不稳定。

核心武器:Latent Geometry Model (LGM)

VGGRPO 的第一大创新是 LGM。作者认为,与其在像素空间折腾,不如直接在 Embedding 层提取几何信息。

作者采用了一种“模型缝合 (Model Stitching)”技术:

  1. 取一个预训练好的几何大模型(如 Any4D)。
  2. 在其前层插入一个轻量级的 3D 卷积连接器
  3. 训练这个连接器,使其能直接从 VAE 的 Latent 特征中预测出相机位姿(Pose)、深度(Depth)和点云(Point Map)。

模型架构图

通过这种方式,模型学会了在“看不见”像素的情况下,感知到画面背后的金字塔、街道或滑雪者的 3D 结构。

算法流程:在潜在空间进行 GRPO 对齐

基于构建好的 LGM,作者引入了 GRPO (Group Relative Policy Optimization) 框架。不同于传统的 PPO,GRPO 不需要复杂的 Critic 网络,而是通过一组样本的相对得分来计算 Advantage,非常适合参数量巨大的视频模型。

定义的两个关键奖励函数:

  1. Camera Motion Smoothness Reward:惩罚加速度的突然跳变,强制模型生成平滑的平移和旋转。
  2. Geometry Reprojection Consistency Reward:利用 4D 感知的 LGM,将不同帧预测的点云投影回彼此的视角。如果深度对不上,重罚!

消融实验对比 如上图所示,只优化运动奖励(中)会让轨迹平滑但墙壁依然会变形;加上几何对齐(右)后,结构完整性大幅提升。

实验战绩:效率与质量的双重胜利

VGGRPO 在 Wan2.2-5B 等模型上展现了极强的适配性:

  • 动态场景胜率:在最具挑战性的动态 Benchmark 上,VideoReward 胜率远超之前的 DPO 方法。
  • 训练效率:由于省去了 VAE 解码步骤,计算时间缩短了 24.5%,显存压力显著减轻。
  • 推理引导 (Test-time Guidance):得益于 LGM 的可微性,该模型甚至支持在推理阶段通过梯度引导来进一步微调几何表现,而无需重新训练。

实验结果对比

总结与洞察

VGGRPO 的成功再一次印证了:Latent 空间蕴含着比我们想象中更丰富的结构化特征。通过将“几何感知”作为一种后训练(Post-training)约束,我们不需要重新训练耗资千万的基础模型,就能让其学会物理世界的一致性逻辑。这对于未来将 AI 视频模型应用于机器人仿真、虚拟制片等对几何精度要求极高的领域,具有里程碑式的意义。


Senior Editor's Note: 该方法通过 "Model Stitching" 巧妙避开了跨模态对齐中的计算瓶颈,是强化学习在 AIGC 领域落地的典型范式。唯一的改进空间在于 LGM 本身的精度上限,未来若能集成更强大的 4D 基础模型,视频生成的“世界模拟”能力将更趋完美。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试将潜在空间 (Latent Space) 特征与几何先验模型结合以增强视频生成一致性的论文。
  • 哪篇论文最早提出了 Group Relative Policy Optimization (GRPO) 算法,本文是如何将其从文本/图像领域拓展到视频流流体模型的?
  • 有哪些后续研究利用类似 Any4D 的几何基础模型作为 Reward Model 来训练机器人仿真环境或具身智能的世界模型?
Contents
[CVPR 2026] VGGRPO:无需解码,在 Latent 空间炼就几何一致的世界模型
1. TL;DR
2. 动机:为什么视频生成的“世界感”这么难?
3. 核心武器:Latent Geometry Model (LGM)
4. 算法流程:在潜在空间进行 GRPO 对齐
5. 实验战绩:效率与质量的双重胜利
6. 总结与洞察