WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] UCM:统一摄像机控制与长期记忆,构建真正一致的世界模型
Summary
Problem
Method
Results
Takeaways

本文提出了 UCM (Unifying Camera Control and Memory),通过“时间感知位置编码扭曲”(Time-aware Positional Encoding Warping) 机制,在视频扩散 Transformer (DiT) 中统一了精确的摄像机控制和长期场景记忆,实现了高一致性的世界模型生成。

TL;DR

在构建可以交互的世界模型时,如何让 AI “记住”走过的路并“听从”镜头的摆布?清华与阿里团队提出的 UCM (Unifying Camera Control and Memory) 给出了优雅的答案。通过时间感知的位置编码扭曲 (Time-aware PE Warping),UCM 在生成视频时建立了一种 token 级的 3D 空间感,不仅能做到极精准的镜头控制,还能在摄像机绕了一圈回到原点时,完美复现最初看到的场景。

1. 痛点:为什么 AI 视频总是“过目即忘”?

目前大多数视频生成模型(如 Sora 架构)在短时间内表现惊人,但作为“世界模型”却有两个致命伤:

  • 几何漂移:当你控制镜头转一圈回来,原本的房子可能变了样,因为模型缺乏长期几何记忆。
  • 镜头失控:虽然可以通过输入 Pose 参数来引导,但模型往往只是“心领神会”而非“精准执行”,缺乏点对点的对应关系。

早期的尝试(如 VWM)试图用 3D 点云重建,但在处理开阔场景时容易产生空洞且细节全无;而隐式方法(如 Context-as-Memory)则全靠模型猜测,准确度难以满足高精度的仿真需求。

2. 核心技术:几何驱动的 PE 扭曲

UCM 的直觉非常硬核:既然 PEs(位置编码)代表了 token 在空间的位置,那么如果我们根据相机运动,通过 3D 投影把历史帧的 PEs “强行扭曲”到当前帧的对应位置,不就建立了显式的几何联系吗?

2.1 时间感知位置编码扭曲 (Time-aware PE Warping)

研究团队通过以下步骤实现这一过程:

  1. 深度提升:利用 Streaming Depth 估计每一帧的深度,将 2D 图像提升为 3D 点云。
  2. 空间投影:根据摄像机外参,将历史帧的点云重投影到当前摄像机坐标系。
  3. PE 注入:将投影后的坐标更新为位置编码。这样,生成模型在进行 Self-Attention 时,会发现当前的某个位置在几何上与历史帧的某个 Patch 是“同物异点”。

模型架构图 图 1:UCM 整体框架。通过重投影历史帧建立时间感知的 PE 关联。

3. 计算优化的“银弹”:双流 DiT 架构

引入大量历史帧作为记忆会带来计算开销的灾难(Attention 复杂度随序列长度平方向增长)。UCM 设计了双流视频扩散 Transformer (Efficient Dual-stream DiT)

  • 清洁流 (Clean stream):处理确定性的历史图像 tokens,它们只管输出特征,不参与复杂的去噪。
  • 噪声流 (Noisy stream):负责生成视频。
  • 分块稀疏注意力 (Block-Sparse Mask):这是最精妙的地方。它强迫当前的噪声 token 只去寻找那些通过几何投影被判定为“相关”的历史 token。这种 Block-Sparse 设计不仅大幅提速,还因为减少了噪声干扰,提升了生成质量。

双流架构 图 2:双流 DiT 模块。左侧为噪声 tokens 的 Full Attention,右侧为稀疏的跨流记忆注入。

4. 实验:碾压级的长时一致性

在长期场景重访的任务中,UCM 展现了惊人的稳定性。在 Cycle Trajectory 实验中(相机绕回原点),UCM 的回访一致性(SSIM 0.77)远超之前最好的方法(0.68)。

实验结果对比 图 3:长期记忆对比。注意红框处,UCM 在多次重访后依然能保持窗户、街道细节的完全一致。

核心量化指标:

  • 相机旋转误差 (RotErr):1.01° (相比基线 5.45° 提升巨大)。
  • 视觉质量 (FID):由 115.17 降低至 83.44(数值越低代表画质越好且越接近真实)。

5. 局限与未来

虽然 UCM 开创了显式几何引导生成的新路径,但作者也坦诚其存在不足:

  • 误差累积:在极长序列生成中,微小的深度估计误差可能会像滚雪球一样扩散。
  • 动态物体:目前模型主要依赖静态场景几何,面对画面中乱跑的动态人体,几何关联偶尔会产生伪影。

总结

UCM 通过“位置编码扭曲”这一手术刀式的改进,成功地在视频生成模型中植入了 3D 几何常识。它不仅让摄像机控制变得前所未有的丝滑,更重要的是,它为构建无限长、逻辑自洽的数字世界迈出了坚实一步。

Find Similar Papers

Try Our Examples

  • 查找最近其他结合显式几何投影与扩散 Transformer (DiT) 进行摄像机控制的视频生成论文。
  • 哪篇论文最早提出了 Positional Encoding Field (PE-Field) 的概念,UCM 如何将其扩展到时间维度?
  • 调研当前世界模型中除了双流架构外,还有哪些解决长文本/长序列 tokens 计算复杂度的稀疏注意力变体?
Contents
[CVPR 2026] UCM:统一摄像机控制与长期记忆,构建真正一致的世界模型
1. TL;DR
2. 1. 痛点:为什么 AI 视频总是“过目即忘”?
3. 2. 核心技术:几何驱动的 PE 扭曲
3.1. 2.1 时间感知位置编码扭曲 (Time-aware PE Warping)
4. 3. 计算优化的“银弹”:双流 DiT 架构
5. 4. 实验:碾压级的长时一致性
5.1. 核心量化指标:
6. 5. 局限与未来
7. 总结