WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] WorldCache:突破视频世界模型实时化的“零阶保持”魔咒
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 WorldCache,一种针对视频世界模型(Video World Models)的感知约束动态缓存框架。该方法基于 Diffusion Transformer (DiT) 架构,通过运动自适应阈值和显著性加权漂移估计,在 Cosmos-Predict2.5 等模型上实现了 2.3 倍的推理加速,同时保持了 99.4% 的原始生成质量。

TL;DR

在视频世界模型的生成过程中,由于 Diffusion Transformer (DiT) 巨大的计算量,推理延迟一直是其迈向实时闭环控制的最大阻碍。本文提出的 WorldCache 是一种逻辑严密的、无需训练的加速方案。它通过“感知约束”的动态近似,解决了传统缓存方法在动态场景下产生的重影和伪影问题,在 Cosmos-Predict2.5 模型上实现了 2.3倍 的加速,且几乎无损于视觉质量(99.4% 保持率)。

痛点深挖:为什么简单的缓存(Caching)会失效?

传统的扩散模型缓存方法(如 DiCache)通常遵循一个简单的直觉:如果第 步和第 步的特征漂移很小,就直接“跳过”深层计算,复用旧特征。

然而,这种 “零阶保持(Zero-Order Hold)” 假设在视频世界模型中存在三大盲区:

  1. 运动不敏感:全局漂移(Global Drift)是平均值,静态背景的稳定会掩盖前景小物体(如远处的行人或机械臂指尖)的剧烈运动。
  2. 空间权重均等:模型对天空背景的微小抖动和对操作目标(Salient Objects)的错误同等对待,导致关键交互区域出现重影。
  3. 静态阈值:去噪初期(建立结构)和后期(细化纹理)对误差的耐受度完全不同,用统一的阈值要么太保守,要么太激进。

核心技术:WorldCache 的四位一体架构

WorldCache 将缓存从一种“偷懒的跳过”转变为一种“受控的动力学近似”。

1. 运动自适应决策 (CFC)

WorldCache 不再使用固定阈值,而是根据潜空间输入的“速度” 动态调整。当场景中运动较快时,自动收紧阈值 ,强制模型进行全量重新计算,从而避免因复用陈旧特征产生的重影。

2. 显著性加权漂移 (SWD)

通过计算特征通道的方差来生成空间显著图 ,将漂移检测器的注意力集中在边缘、纹理和边缘复杂的物体上。这意味着背景的波动被过滤,而前景目标的微小位移会被放大,精准触发计算刷新。

3. 最优特征近似 (OFA) —— 拒绝“生搬硬套”

这是本文的核心直觉所在。当决定复用缓存时,WorldCache 做了两件事:

  • 空间变形 (Warping):利用轻量级的 Lucas-Kanade 算法估计运动场,将旧特征“推”到当前帧的空间位置。
  • 最小二乘混合 (OSI):不再是标量插值,而是通过向量投影寻找最优增益 ,使得近似特征在方向上更贴合真实的去噪轨迹。

模型架构图 图 1: WorldCache 整体流程图。展示了从探针(Probe)决策到 OFA 近似,再到 ATS 调度的完整链路。

4. 相位感知调度 (ATS)

作者发现,去噪后期(最后 20% 的 Step)几乎只在修正高频噪声。ATS 模块在此阶段呈二次方放宽阈值,利用前述模块建立的质量裕度来换取极致的推理速度。

实验战绩:SOTA 级别的加速比

在衡量物理 AI 性能的 PAI-Bench 基准上,WorldCache 展现了极强的统治力:

| 方法 | 模型 (Cosmos) | 加速比 | 质量保留率 (Overall) | | :--- | :--- | :--- | :--- | | Baseline | 2B | 1.0x | 0.748 | | DiCache | 2B | 1.3x | 0.743 | | WorldCache | 2B | 2.1x | 0.745 |

在更具挑战性的 Image2World (I2W) 任务中,加速比更是冲到了 2.3x

实验结果对比 图 2: 定性结果对比。可以看到 DiCache 在动态物体(红色虚线框)上出现了明显的形变和重影,而 WorldCache(绿色虚线框)保持了完美的运动一致性。

深度洞察:消融实验的“投资与消费”策略

消融实验揭示了一个有趣的经济学逻辑:

  • CFC/SWD/OFA 是“投资”:它们增加了决策的严谨性和近似的准确度,甚至在某些环节(如 OFA)会略微增加开销,旨在提高质量上限。
  • ATS 是“消费”:在有了前期稳定性的投资后,ATS 在去噪后期大幅度“挥霍”这些稳健性来换取加速,最终平衡点远超前人。

总结与局限

WorldCache 证明了:对于视频生成的长程推理,缓存不应该是一个静态的 Snapshot,而应该是一个带有动量的动态预测器

局限性:虽然 WorldCache 非常稳健,但在面对极其剧烈的场景切换(如电影级的镜头蒙太奇切场)时,缓存命中率会大幅下降。未来的研究或许可以引入在线学习策略,实时演化缓存更新策略以应对更复杂的视觉动态。

如果你正在构建需要实时交互的视觉智能体(Embodied AI),WorldCache 这种“感知自适应”的推理策略绝对值得一试。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他针对视频扩散模型(Video Diffusion)中间特征冗余进行加速的训练免修剪(Training-free)方法。
  • 在视频生成任务中,除了 Lucas-Kanade,还有哪些轻量级的运动补偿(Motion Compensation)技术被用于跨步(Inter-step)特征对齐?
  • 调研 PAI-Bench 基准测试在评估视频世界模型物理一致性(Physical Consistency)方面的最新应用与局限性。
Contents
[CVPR 2026] WorldCache:突破视频世界模型实时化的“零阶保持”魔咒
1. TL;DR
2. 痛点深挖:为什么简单的缓存(Caching)会失效?
3. 核心技术:WorldCache 的四位一体架构
3.1. 1. 运动自适应决策 (CFC)
3.2. 2. 显著性加权漂移 (SWD)
3.3. 3. 最优特征近似 (OFA) —— 拒绝“生搬硬套”
3.4. 4. 相位感知调度 (ATS)
4. 实验战绩:SOTA 级别的加速比
5. 深度洞察:消融实验的“投资与消费”策略
6. 总结与局限