WisPaper

学术搜索

问答

价格

TrueCite

工作空间

Home

Blog

X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference

X-Cache：突破自回归世界模型实时推理瓶颈的“跨块”缓存技术

总结

问题

方法

结果

要点

摘要

本文提出了 X-Cache，一种针对自动驾驶等 Few-step（少步数）自回归世界模型设计的跨 Chunk 模块缓存加速方法。该方法通过在连续生成的视频块（Chunks）之间重用 DiT 模块的残差，在 X-World 生成模型上实现了 71% 的模块跳过率和 2.6 倍的端到端推理加速。

TL;DR

小鹏汽车 AI Infra 团队开源了 X-Cache，一种专为少步数（Few-step）自回归视频扩散模型设计的训练加速方案。它不依赖去噪步间的冗余，而是巧妙利用视频序列中相邻 Chunk 之间的物理连续性进行残差重用。该方法在保证自动驾驶仿真精度（SSIM 0.999+）的同时，实现了 2.6x 的推理加速。

背景：世界模型的“快”与“准”之争

在自动驾驶领域，世界模型（World Models）被寄予厚望，用于构建闭环仿真环境。然而，SOTA 模型如 X-World 通常采用自回归架构且需要处理 7 摄像头环视视频，推理延迟极高。为了实时交互，业界普遍采用 Few-step 蒸馏（如将去噪步压缩至 4 步）。

痛点在于： 现有的加速技术（如 DeepCache, FlowCache）大多基于去噪步骤间的相似性。但在 4 步去噪下，每一步的结构更新都非常巨大，强行缓存会导致严重的伪影；且自回归场景下的 Action 输入是非平滑的，传统方法难以应对。

核心直觉：物理场景的连续性是有价值的

X-Cache 的核心 Insight 是：虽然去噪步骤间的冗余消失了，但连续生成的视频块（Cross-chunk）之间存在极强的物理冗余。自动驾驶场景中，车辆行驶是连续的，模型在生成第 $n$ 个块和第 $n - 1$ 个块时，DiT 内部的残差分布非常接近。

技术详解：X-Cache 如何工作？

1. 结构与动作感知指纹 (Dual-Metric Gating)

X-Cache 并非盲目跳过模块，而是通过一个精密的“门控机制”来判断：

3D 空间指纹：对 Latent 在 F, H, W 三个轴上进行子采样，捕捉空间结构相似性。
动作通道 (Action-aware)：将驾驶动作向量直接引入指纹比对。如果驾驶员突然急转弯或刹车，指纹会迅速发生剧变，强制模型进行完整计算。

模型架构图

2. KV 更新帧的“绝对领域”

自回归推理中最怕“误差累积”。X-Cache 设计了一个硬性安全开关：KV Update 帧保护。在需要向持久化 KV Cache 写入新 Key-Value 的前向传递中，X-Cache 会无条件关闭缓存，进行全量计算。这确保了作为后续生成“根基”的 KV 缓存是绝对纯净的。

3. 自适应阈值 (Adaptive Threshold)

由于 DiT 不同层的敏感度不同，X-Cache 引入了 EMA（指数移动平均）来动态学习每一层的相似度阈值。这避免了手动调参，让模型能自动在简单场景（高速直行）多跳过模块，在复杂场景（闹市穿行）多计算。

实验结果：无损加速的典范

团队在真武 810E (PPU) 加速器上进行了验证，针对城市道路、高速增长和掉头等极端场景进行了压力测试。

加速比：实现了约 71% 的模块跳过率，DiT 部分 wall-clock speedup 达到 2.6x - 2.7x。
保真度：从下图可见，X-Cache 生成的画面（中）与全量计算（左）几乎无异，残差图（右）放大了 20 倍才看到极细微的边界差异。

实验结果对比

总结与思考

X-Cache 的成功证明了：在模型效率优化中，寻找正确的冗余轴比算法本身的复杂性更重要。

局限性：目前主要在自动驾驶内部分布数据上验证，对于剧烈的环境突变（如进入隧道瞬间）的鲁棒性仍需更多极端案例（Corner Cases）支撑。
未来展望：这种跨块缓存的思想完全可以推广到其他交互式生成领域，如实时 AI 游戏生成或交互式视频编辑。

关键词：X-Cache, 自动驾驶世界模型, 自回归视频扩散, DiT 加速, 推理优化

发现相似论文

试试这些示例

查找最近其他试图解决 Few-step 蒸馏扩散模型推理延迟问题的论文，特别是针对视频生成任务的研究。
哪篇论文最早提出了 DiT 架构中的块级缓存概念（例如 DeepCache），本文是如何将其从跨步（Cross-step）演进为跨块（Cross-chunk）的？
有哪些研究将类似 X-Cache 的缓存机制应用到了基于 Mamba 或其他非 Transformer 架构的世界模型中？

X-Cache：突破自回归世界模型实时推理瓶颈的“跨块”缓存技术

1. TL;DR

2. 背景：世界模型的“快”与“准”之争

3. 核心直觉：物理场景的连续性是有价值的

4. 技术详解：X-Cache 如何工作？

4.1. 1. 结构与动作感知指纹 (Dual-Metric Gating)

4.2. 2. KV 更新帧的“绝对领域”

4.3. 3. 自适应阈值 (Adaptive Threshold)

5. 实验结果：无损加速的典范

6. 总结与思考