WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[SIGGRAPH Asia 2025] MosaicMem:混合空间记忆,打造可控、交互的一致性视频世界模型
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MosaicMem,一种用于可控视频世界模型(World Models)的混合空间记忆机制。该方法通过一种“Patch-and-Compose”接口,将视频片段提升为 3D 补丁,结合了显式几何定位的可靠性与隐式注意力机制的动态生成能力,实现了长时程、高一致性且支持相机控制的视频生成。

TL;DR

MosaicMem 彻底解决了视频生成模型在“长周期导航”中常见的视觉漂移记忆缺失问题。它通过将视频 Patch 提升至 3D 空间,创造了一种“拼贴画(Mosaic)”式的记忆管理机制,既保留了 3D 结构的严谨性,又维持了扩散模型处理动态场景的灵活性。在 2 分钟的长路径生成任务中,它展现了惊人的场景复现能力。

核心速览

随着 Sora 和 Genie 的出现,视频生成正在从单纯的“短片合成”转向“世界模型”的构建。一个真正的世界模型必须具备物体恒常性(Object Permanence)和环境一致性。

本文在领域坐标系中属于空间记忆(Spatial Memory)的架构革新。它打破了单纯显式(Explicit)几何重建和单纯隐式(Implicit)特征记忆的对立,开创了 Patch 级别的混合记忆范式。

痛点与动机:为什么你的 AI 视频走两步就“串味”?

在之前的研究中,AI 视频模型在处理“回头看(Revisit)”场景时经常崩溃,主要原因有两个:

  1. 显式记忆(如 GEN3C)的僵硬性:就像给场景建了一个 3D 模型,背景很稳,但人不会动了,且 3D 重建误差会随时间不断积累。
  2. 隐式记忆(如 CaM)的随机性:虽然动态效果好,但由于缺乏硬约束,生成模型在几次相机移动后就会彻底忘记背后的场景,产生严重的“空间漂移”。

两种主流记忆范式的局限性比较

核心方法:MosaicMem 的“拼贴”艺术

MosaicMem 的核心直觉在于:将记忆分解为独立的 3D Patch

1. Patch-and-Compose 接口

系统不再存储整帧图像,而是利用 3D 估计器将每一个视频小块(Patch)投影到 3D 空间。当相机移动到新视角时,模型会根据当前的 3D 坐标,精准地从“记忆库”中提取出对应的 Patch 拼贴在画布上。未覆盖的区域则交由扩散模型进行 Inpainting,实现动态更新。

2. 双重对齐机制

为了解决 VAE 压缩导致的精度损失,作者设计了两种对齐策略:

  • Warped RoPE:在位置编码层面,利用重投影逻辑(Perspective Projection)调整其在注意力机制中的坐标。
  • Warped Latent:在特征层面,直接对记忆 Patch 进行双线性插值采样,确保物理位置的绝对重合。

MosaicMem 整体架构图

3. PRoPE 相机控制

作者引入了投影位置编码(PRoPE),将相机投影矩阵直接注入 DiT 的 Self-Attention 模块。这使得模型能精确感知“我正从哪个角度看这个世界”。

实验与结果:全方位的 SOTA

研究团队在自建的 MosaicMem-World 基准测试集上(包含游戏、真实世界及 UE5 模拟数据)进行了压测。

| 指标 | 显式基线 (GEN3C) | 隐式基线 (CaM) | MosaicMem (Ours) | | :--- | :--- | :--- | :--- | | 相机旋转误差 (RotErr ↓) | 1.61° | 4.65° | 0.51° | | 位移误差 (TransErr ↓) | 0.13 | 0.43 | 0.06 | | 一致性评分 (SSIM ↑) | 0.64 | 0.49 | 0.75 |

深度洞察

  • 动态物体的胜利:相比显式方法只能渲染静态背景,MosaicMem 能在回头时依然生成“ medieval knight riding a horse”等复杂的动态叙事。
  • 实时性飞跃:通过 Mosaic Forcing(自回归蒸馏技术),模型在保持高一致性的同时,达到了 16 FPS 的实时生成速度。

实验结果对比图

场景编辑:上帝视角的手动干预

由于记忆是基于 3D Patch 存储的, MosaicMem 展现了极强的可操控性。用户可以直接删除、复制甚至重新定位记忆中的 Patch(如将地面建筑“垂直翻转”到天空中),从而创造出如《盗梦空间》般的超现实视频效果。

场景编辑与拼接效果示意

总结与局限 (Takeaway)

MosaicMem 成功将 3D 近似与生成式注意力机制融合。其贡献不只是刷榜,更在于证明了**局部 3D 约束(Patch-based)优于全局 3D 重建(Global Constrained)**的灵活性。

局限性:尽管 Patch 拼贴效果惊人,但在极端大范围场景(如从室内到整座城市)的 Patch 索引效率仍有待提升。此外,对于高度非刚性变形(如流体)的 3D 提升精度仍受限于底层 depth 估计器的水平。

未来,这一框架有望成为自动驾驶仿真、交互式 3D 游戏生成的核心组件。

Find Similar Papers

Try Our Examples

  • 查找最近其他结合显式 3D 几何(如 3DGS)与隐式生成模型以增强视频长时一致性的论文。
  • 哪篇论文最早提出了 PRoPE(Projective Positional Encoding)的概念,本文在 DiT 架构中对其进行了哪些针对性的时间轴压缩改进?
  • 探索 MosaicMem 这种 Patch-and-Compose 的记忆机制,在具身智能(Embodied AI)的在线导航与 3D 环境建图任务中的应用潜力。
Contents
[SIGGRAPH Asia 2025] MosaicMem:混合空间记忆,打造可控、交互的一致性视频世界模型
1. TL;DR
2. 核心速览
3. 痛点与动机:为什么你的 AI 视频走两步就“串味”?
4. 核心方法:MosaicMem 的“拼贴”艺术
4.1. 1. Patch-and-Compose 接口
4.2. 2. 双重对齐机制
4.3. 3. PRoPE 相机控制
5. 实验与结果:全方位的 SOTA
5.1. 深度洞察
6. 场景编辑:上帝视角的手动干预
7. 总结与局限 (Takeaway)