WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2026] WorldCam: 以相机位姿为锚点,重构交互式 3D 游戏世界生成
总结
问题
方法
结果
要点
摘要

本文提出了 WorldCam,一种基于视频扩散 Transformer (DiT) 的交互式游戏世界基础模型。该方法引入了相机位姿(Camera Pose)作为统一的几何表示,实现了精确的动作控制和长效 3D 一致性,在动作保真度和视频生成质量上达到 SOTA 水平。

TL;DR

传统的视频生成模型往往把用户操作(如按下 W 键或移动鼠标)当成一种模糊的“暗示”,但在真正的游戏引擎中,这些操作对应着严格的物理位姿变换。WorldCam 彻底改变了这一现状:它首次将**相机位姿(Camera Pose)**作为统一的几何表征,不仅实现了精准到 6-DoF 的动作响应,更解决了生成视频在长距离交互中“走回来场景变了”的 3D 一致性顽疾。

核心痛点:为什么 AI 依然造不出完美的游戏世界?

尽管视频扩散模型(Video DiT)能生成震撼的视觉效果,但在“交互性”和“一致性”上存在天然短板:

  1. 动作失准:现有模型(如 Matrix-Game)直接注入原始动作信号,缺乏对 $SE(3)$ 几何流形的理解,导致复杂的复合动作(如一边侧移一边转身)生成的轨迹极其不自然。
  2. 遗忘效应:当你操控角色在一个大地图转一圈回到起点时,模型由于缺乏长效记忆,生成的初始位置往往已经物是人非。
  3. 误差累积:自回归生成过程中,微小的偏差会随时间放大,导致画面逐渐崩溃或 UI 扭曲。

核心技术路线

1. 从 Lie Algebra 到 SE(3):物理真实的动作映射

WorldCam 不再使用简单的线性近似,而是在李代数 $se(3)$ 中定义动作空间。通过矩阵指数映射(Exponential Map),将用户的速度向量 $\mathbf{V}$ 和角速度 $\boldsymbol{\omega}$ 转化为流形上的变换矩阵。这种方法能够完美建模“螺旋运动(Screw Motion)”,即平移与旋转的深度耦合。

2. 位姿锚定的长期记忆(Pose-Anchored Memory)

这是解决 3D 一致性的神来之笔。WorldCam 维护一个存储已生成隐变量(Latents)的记忆池,每个片段都带有其全局位姿记录。

  • 检索机制:当相机再次靠近已知坐标时,模型会根据位置和视角方向检索最相关的历史 Latents。
  • 几何配准:这些历史记录被拼接回当前的 Context 中,强制模型在生成新帧时参考“过去的自己”,确保场景不走样。

模型架构图 图 1:WorldCam 总体架构。它将动作转化为位姿,通过长期存储池和 Attention Sink 机制维持世界的物理稳定性。

3. 渐进式自回归推理与 Attention Sink

为了保证生成的流畅性,作者采用了渐进式噪声调度(Progressive Noise Scheduling)。在一个推理窗口内,不同帧处于不同的去噪阶段,这既保证了时间上的连续性,也允许模型修正之前的细微错误。同时,引入 Attention Sink(注意力池化)机制,固定初始帧作为全局锚点,有效防止了长时生成的漂移。

实验战绩与视觉呈现

精准的动作跟踪

在下表中可以看到,WorldCam 在平均相对位姿误差(RPE)上显著优于此前的 SOTA 模型 GameCraft。特别是在旋转精度上,李代数建模带来的优势让误差几乎减半。

实验结果对比 表 1:在动作控制与视觉质量上的定量对比。

长征式的 3D 一致性

如下图所示,当模型经历 200 帧的长距离重访后,WorldCam 生成的画面依然能保持地形和建筑架构的连续,而 Yume 等对比策略则出现了明显的场景漂移。

重访实验对比 图 2:定性对比。注意看在回转过程中,WorldCam 对走廊布局的保持能力。

行业启示:WorldCam-50h 数据集的贡献

学术界长期苦于高质量游戏动作数据集的匮乏。作者随本文发布了 WorldCam-50h

  • 规模:3000 分钟(50 小时)真实人类游玩数据。
  • 多样性:涵盖《反恐精英》等复杂 3D 环境,标注了伪地面真值的相机位姿和详细的文本描述。
  • 意义:相比于 Minecraft 数据集,它更真实地反映了 3D 空间中的交互动态。

总结与反思

WorldCam 为构建“AI 游戏引擎”提供了一套扎实的几何底座。它告诉我们:纯粹的数据驱动或许能生成美丽的像素,但只有引入几何常识,才能构建真正的“世界”。 当然,目前该模型在实时性上仍有提升空间(单步耗时约 0.52s),如何通过蒸馏技术(Distillation)实现端到端的 30+ FPS 生成,将是通往“全 AI 驱动游戏”的最后一公里挑战。


关键词:Interactive World Model, Video DiT, Lie Algebra, 3D Consistency, SE(3).

发现相似论文

试试这些示例

  • 查找其他最近利用李群/李代数(Lie Group/Algebra)理论来增强生成模型中物理一致性的研究论文。
  • 哪篇论文最早引入了“Attention Sink”机制,本文在长程视频生成中是如何改进并结合该机制的?
  • 调研当前除了 WorldCam 之外,还有哪些 SOTA 方法在试图解决交互式视频生成中的“地点重访(Revisiting)”一致性问题?
目录
[CVPR 2026] WorldCam: 以相机位姿为锚点,重构交互式 3D 游戏世界生成
1. TL;DR
2. 核心痛点:为什么 AI 依然造不出完美的游戏世界?
3. 核心技术路线
3.1. 1. 从 Lie Algebra 到 SE(3):物理真实的动作映射
3.2. 2. 位姿锚定的长期记忆(Pose-Anchored Memory)
3.3. 3. 渐进式自回归推理与 Attention Sink
4. 实验战绩与视觉呈现
4.1. 精准的动作跟踪
4.2. 长征式的 3D 一致性
5. 行业启示:WorldCam-50h 数据集的贡献
6. 总结与反思