本文提出了 Fast-dVLA,一种针对离散扩散视觉-语言-动作模型(dVLA)的加速框架。通过引入块状注意力(Block-wise Attention)和扩散强迫(Diffusion Forcing)机制,该方法首次将 dVLA 的推理速度提升至 30Hz 以上的实时水平,并在 CALVIN 和 LIBERO 等 benchmark 上实现了 2.8x 至 4.1x 的加速,同时刷新了 SOTA 成功率。
核心速览 (Executive Summary)
TL;DR:Fast-dVLA 是一项突破性的工作,它通过重构离散扩散 VLA (dVLA) 的注意力机制与去噪逻辑,克服了离散扩散模型在具身智能领域“推理慢、难部署”的痼疾。其核心贡献是将推理频率提升了 3-4 倍(达到 30Hz 实时要求),同时在多个基准测试中保持甚至超越了原本的 SOTA 成功率。
背景定位:在 VLA 领域,虽然离散扩散模型(如 DD-VLA, Dream-VLA)比自回归(AR)模型具有更好的对齐能力,但其全双向注意力导致无法复用 KV Cache。Fast-dVLA 处于加速优化层,通过对去噪轨迹的重新排布,将 dVLA 推向了工业级部署的高度。
痛点深挖:为什么 dVLA 跑不快?
传统的离散扩散 VLA(如 Figure 1 所示)在生成动作序列时,通常采用全局双向注意力。这意味着在每一次去噪迭代中,序列中的每一个 Token 都要与所有其他 Token 进行计算。
- KV Cache 失效:由于每一轮迭代所有位置的 Represenation 都会变,传统的自回归缓存机制完全排不上用场。
- 串行阻塞:目前的模型虽然能并行生成一个 Block 的 Action,但 Block 之间必须严格串行(只有前面的 Block 去噪完了,后面的才能开始)。
作者观察到一个名为“Block-wise AR Decoding”的有趣现象(见 Figure 3):即便使用了双向注意力,预训练模型在去噪过程中依然隐性地表现出从左到右(先时间早、后时间晚)的解码倾向。
Figure 3: 观察发现模型天然存在由左至右的去噪重心偏移
方法论详解:Fast-dVLA 的解法
Fast-dVLA 从**空间(Attention)和时间(Denoising Step)**两个维度进行了重构。
1. 块状注意力 (Block-wise Attention)
为了复用 KV Cache,作者将注意力模式修改为图 5 所示的块状因果模式。
- 内并行,间因果:Block 内部是双向的,保证生成质量;Block 之间是因果的,保证前序 Block 的 KV 状态一旦确定就不再更改,从而可以被后续迭代直接读取。
Figure 5 & 4b: 块间因果性使得 KV Cache 的持久化复用变得可能
2. 扩散强迫 (Diffusion Forcing) 与流水线解码
这是本文最精妙的地方。传统的去噪是全局一致的,而 Fast-dVLA 允许序列的不同部分处于不同的“去噪阶段”:
- 噪声梯度:给序列中的 Blocks 分配单调递增的噪声水平($t_1 < t_2 < ... < t_n$)。
- 流水线 (Pipelined Parallel Decoding):当前的 Block 还没完全去噪(Semi-activated),后续的 Block 就可以基于当前的不确定状态提前开始“热身预判”。这极大提高了硬件利用率。
实验与结果 (Experiments & Results)
SOTA 对比:速度与性能的双重飞跃
在 LIBERO 榜单上,Fast-dVLA 将 DD-VLA 这一强基线的推理速度从 152.1 Tokens/s 提升至 402.7 Tokens/s (4.1x)。更难得的是,成功率从 96.3% 提升到了 96.6%。

非对称蒸馏带来的极速收敛 (LAD)
为了让修改了注意力模式后的模型快速恢复能力,作者采用了非对称蒸馏。实验证明,这种策略比从头训练(Lact)或从微调权重继续训练(LBD)要快得多,仅需 1/10 的训练步数。
Figure 8: 蓝色曲线显示了非对称蒸馏极速下降的收敛速度
深度洞察与总结 (Critical Analysis)
为什么 Fast-dVLA 甚至能超过基线成功率?
作者在消融实验中指出,块状注意力引入的“时间因果性”实际上起到了一种正则化作用。它可以防止后序(未来时间轴)的不确定动作 Token 产生的噪声通过全双向注意力干扰到当前的动作决策,这增强了物理执行中的时序一致性。
局限性与未来展望
虽然 Fast-dVLA 在离散动作空间效果惊人,但对于需要极高精度的连续空间(如精密电子组装)是否依然能保持优势?目前的块大小(Block size)还需要根据动作维度进行启发式设置(建议为动作维度的倍数),未来是否能实现全自动的动态块划分将是一个有趣的研究方向。
总结:Fast-dVLA 扫清了离散扩散模型进入真实机器人生产线的最后一道障碍——实时性。它用“流水线解码”的思想重现了扩散模型的推理轨迹。
