WorldCache: Content-Aware Caching for Accelerated Video World Models

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

WorldCache: Content-Aware Caching for Accelerated Video World Models

[CVPR 2026] WorldCache：突破视频世界模型实时化的“零阶保持”魔咒

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 WorldCache，一种针对视频世界模型（Video World Models）的感知约束动态缓存框架。该方法基于 Diffusion Transformer (DiT) 架构，通过运动自适应阈值和显著性加权漂移估计，在 Cosmos-Predict2.5 等模型上实现了 2.3 倍的推理加速，同时保持了 99.4% 的原始生成质量。

TL;DR

在视频世界模型的生成过程中，由于 Diffusion Transformer (DiT) 巨大的计算量，推理延迟一直是其迈向实时闭环控制的最大阻碍。本文提出的 WorldCache 是一种逻辑严密的、无需训练的加速方案。它通过“感知约束”的动态近似，解决了传统缓存方法在动态场景下产生的重影和伪影问题，在 Cosmos-Predict2.5 模型上实现了 2.3倍 的加速，且几乎无损于视觉质量（99.4% 保持率）。

痛点深挖：为什么简单的缓存（Caching）会失效？

传统的扩散模型缓存方法（如 DiCache）通常遵循一个简单的直觉：如果第 $t$ 步和第 $t - 1$ 步的特征漂移很小，就直接“跳过”深层计算，复用旧特征。

然而，这种 “零阶保持（Zero-Order Hold）” 假设在视频世界模型中存在三大盲区：

运动不敏感：全局漂移（Global Drift）是平均值，静态背景的稳定会掩盖前景小物体（如远处的行人或机械臂指尖）的剧烈运动。
空间权重均等：模型对天空背景的微小抖动和对操作目标（Salient Objects）的错误同等对待，导致关键交互区域出现重影。
静态阈值：去噪初期（建立结构）和后期（细化纹理）对误差的耐受度完全不同，用统一的阈值要么太保守，要么太激进。

核心技术：WorldCache 的四位一体架构

WorldCache 将缓存从一种“偷懒的跳过”转变为一种“受控的动力学近似”。

1. 运动自适应决策 (CFC)

WorldCache 不再使用固定阈值，而是根据潜空间输入的“速度” $v_{t}$ 动态调整。当场景中运动较快时，自动收紧阈值 $a u_{C F C}$ ，强制模型进行全量重新计算，从而避免因复用陈旧特征产生的重影。

2. 显著性加权漂移 (SWD)

通过计算特征通道的方差来生成空间显著图 $S_{h, w}$ ，将漂移检测器的注意力集中在边缘、纹理和边缘复杂的物体上。这意味着背景的波动被过滤，而前景目标的微小位移会被放大，精准触发计算刷新。

3. 最优特征近似 (OFA) —— 拒绝“生搬硬套”

这是本文的核心直觉所在。当决定复用缓存时，WorldCache 做了两件事：

空间变形 (Warping)：利用轻量级的 Lucas-Kanade 算法估计运动场，将旧特征“推”到当前帧的空间位置。
最小二乘混合 (OSI)：不再是标量插值，而是通过向量投影寻找最优增益 $γ^{*}$ ，使得近似特征在方向上更贴合真实的去噪轨迹。

模型架构图 图 1: WorldCache 整体流程图。展示了从探针（Probe）决策到 OFA 近似，再到 ATS 调度的完整链路。

4. 相位感知调度 (ATS)

作者发现，去噪后期（最后 20% 的 Step）几乎只在修正高频噪声。ATS 模块在此阶段呈二次方放宽阈值，利用前述模块建立的质量裕度来换取极致的推理速度。

实验战绩：SOTA 级别的加速比

在衡量物理 AI 性能的 PAI-Bench 基准上，WorldCache 展现了极强的统治力：

| 方法 | 模型 (Cosmos) | 加速比 | 质量保留率 (Overall) | | :--- | :--- | :--- | :--- | | Baseline | 2B | 1.0x | 0.748 | | DiCache | 2B | 1.3x | 0.743 | | WorldCache | 2B | 2.1x | 0.745 |

在更具挑战性的 Image2World (I2W) 任务中，加速比更是冲到了 2.3x。

实验结果对比 图 2: 定性结果对比。可以看到 DiCache 在动态物体（红色虚线框）上出现了明显的形变和重影，而 WorldCache（绿色虚线框）保持了完美的运动一致性。

深度洞察：消融实验的“投资与消费”策略

消融实验揭示了一个有趣的经济学逻辑：

CFC/SWD/OFA 是“投资”：它们增加了决策的严谨性和近似的准确度，甚至在某些环节（如 OFA）会略微增加开销，旨在提高质量上限。
ATS 是“消费”：在有了前期稳定性的投资后，ATS 在去噪后期大幅度“挥霍”这些稳健性来换取加速，最终平衡点远超前人。

总结与局限

WorldCache 证明了：对于视频生成的长程推理，缓存不应该是一个静态的 Snapshot，而应该是一个带有动量的动态预测器。

局限性：虽然 WorldCache 非常稳健，但在面对极其剧烈的场景切换（如电影级的镜头蒙太奇切场）时，缓存命中率会大幅下降。未来的研究或许可以引入在线学习策略，实时演化缓存更新策略以应对更复杂的视觉动态。

如果你正在构建需要实时交互的视觉智能体（Embodied AI），WorldCache 这种“感知自适应”的推理策略绝对值得一试。

Find Similar Papers

Try Our Examples

查找最近一年内其他针对视频扩散模型（Video Diffusion）中间特征冗余进行加速的训练免修剪（Training-free）方法。
在视频生成任务中，除了 Lucas-Kanade，还有哪些轻量级的运动补偿（Motion Compensation）技术被用于跨步（Inter-step）特征对齐？
调研 PAI-Bench 基准测试在评估视频世界模型物理一致性（Physical Consistency）方面的最新应用与局限性。

Contents

[CVPR 2026] WorldCache：突破视频世界模型实时化的“零阶保持”魔咒

1. TL;DR

2. 痛点深挖：为什么简单的缓存（Caching）会失效？

3. 核心技术：WorldCache 的四位一体架构

3.1. 1. 运动自适应决策 (CFC)

3.2. 2. 显著性加权漂移 (SWD)

3.3. 3. 最优特征近似 (OFA) —— 拒绝“生搬硬套”

3.4. 4. 相位感知调度 (ATS)

4. 实验战绩：SOTA 级别的加速比

5. 深度洞察：消融实验的“投资与消费”策略

6. 总结与局限