本文提出了 WorldCache,一种针对视频世界模型(Video World Models)的感知约束动态缓存框架。该方法基于 Diffusion Transformer (DiT) 架构,通过运动自适应阈值和显著性加权漂移估计,在 Cosmos-Predict2.5 等模型上实现了 2.3 倍的推理加速,同时保持了 99.4% 的原始生成质量。
TL;DR
在视频世界模型的生成过程中,由于 Diffusion Transformer (DiT) 巨大的计算量,推理延迟一直是其迈向实时闭环控制的最大阻碍。本文提出的 WorldCache 是一种逻辑严密的、无需训练的加速方案。它通过“感知约束”的动态近似,解决了传统缓存方法在动态场景下产生的重影和伪影问题,在 Cosmos-Predict2.5 模型上实现了 2.3倍 的加速,且几乎无损于视觉质量(99.4% 保持率)。
痛点深挖:为什么简单的缓存(Caching)会失效?
传统的扩散模型缓存方法(如 DiCache)通常遵循一个简单的直觉:如果第 步和第 步的特征漂移很小,就直接“跳过”深层计算,复用旧特征。
然而,这种 “零阶保持(Zero-Order Hold)” 假设在视频世界模型中存在三大盲区:
- 运动不敏感:全局漂移(Global Drift)是平均值,静态背景的稳定会掩盖前景小物体(如远处的行人或机械臂指尖)的剧烈运动。
- 空间权重均等:模型对天空背景的微小抖动和对操作目标(Salient Objects)的错误同等对待,导致关键交互区域出现重影。
- 静态阈值:去噪初期(建立结构)和后期(细化纹理)对误差的耐受度完全不同,用统一的阈值要么太保守,要么太激进。
核心技术:WorldCache 的四位一体架构
WorldCache 将缓存从一种“偷懒的跳过”转变为一种“受控的动力学近似”。
1. 运动自适应决策 (CFC)
WorldCache 不再使用固定阈值,而是根据潜空间输入的“速度” 动态调整。当场景中运动较快时,自动收紧阈值 ,强制模型进行全量重新计算,从而避免因复用陈旧特征产生的重影。
2. 显著性加权漂移 (SWD)
通过计算特征通道的方差来生成空间显著图 ,将漂移检测器的注意力集中在边缘、纹理和边缘复杂的物体上。这意味着背景的波动被过滤,而前景目标的微小位移会被放大,精准触发计算刷新。
3. 最优特征近似 (OFA) —— 拒绝“生搬硬套”
这是本文的核心直觉所在。当决定复用缓存时,WorldCache 做了两件事:
- 空间变形 (Warping):利用轻量级的 Lucas-Kanade 算法估计运动场,将旧特征“推”到当前帧的空间位置。
- 最小二乘混合 (OSI):不再是标量插值,而是通过向量投影寻找最优增益 ,使得近似特征在方向上更贴合真实的去噪轨迹。
图 1: WorldCache 整体流程图。展示了从探针(Probe)决策到 OFA 近似,再到 ATS 调度的完整链路。
4. 相位感知调度 (ATS)
作者发现,去噪后期(最后 20% 的 Step)几乎只在修正高频噪声。ATS 模块在此阶段呈二次方放宽阈值,利用前述模块建立的质量裕度来换取极致的推理速度。
实验战绩:SOTA 级别的加速比
在衡量物理 AI 性能的 PAI-Bench 基准上,WorldCache 展现了极强的统治力:
| 方法 | 模型 (Cosmos) | 加速比 | 质量保留率 (Overall) | | :--- | :--- | :--- | :--- | | Baseline | 2B | 1.0x | 0.748 | | DiCache | 2B | 1.3x | 0.743 | | WorldCache | 2B | 2.1x | 0.745 |
在更具挑战性的 Image2World (I2W) 任务中,加速比更是冲到了 2.3x。
图 2: 定性结果对比。可以看到 DiCache 在动态物体(红色虚线框)上出现了明显的形变和重影,而 WorldCache(绿色虚线框)保持了完美的运动一致性。
深度洞察:消融实验的“投资与消费”策略
消融实验揭示了一个有趣的经济学逻辑:
- CFC/SWD/OFA 是“投资”:它们增加了决策的严谨性和近似的准确度,甚至在某些环节(如 OFA)会略微增加开销,旨在提高质量上限。
- ATS 是“消费”:在有了前期稳定性的投资后,ATS 在去噪后期大幅度“挥霍”这些稳健性来换取加速,最终平衡点远超前人。
总结与局限
WorldCache 证明了:对于视频生成的长程推理,缓存不应该是一个静态的 Snapshot,而应该是一个带有动量的动态预测器。
局限性:虽然 WorldCache 非常稳健,但在面对极其剧烈的场景切换(如电影级的镜头蒙太奇切场)时,缓存命中率会大幅下降。未来的研究或许可以引入在线学习策略,实时演化缓存更新策略以应对更复杂的视觉动态。
如果你正在构建需要实时交互的视觉智能体(Embodied AI),WorldCache 这种“感知自适应”的推理策略绝对值得一试。
