Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

[2026] Fast-dVLA：打破离散扩散瓶颈，实现具身智能 SOTA 实时推理

总结

问题

方法

结果

要点

摘要

本文提出了 Fast-dVLA，一种针对离散扩散视觉-语言-动作模型（dVLA）的加速框架。通过引入块状注意力（Block-wise Attention）和扩散强迫（Diffusion Forcing）机制，该方法首次将 dVLA 的推理速度提升至 30Hz 以上的实时水平，并在 CALVIN 和 LIBERO 等 benchmark 上实现了 2.8x 至 4.1x 的加速，同时刷新了 SOTA 成功率。

核心速览 (Executive Summary)

TL;DR：Fast-dVLA 是一项突破性的工作，它通过重构离散扩散 VLA (dVLA) 的注意力机制与去噪逻辑，克服了离散扩散模型在具身智能领域“推理慢、难部署”的痼疾。其核心贡献是将推理频率提升了 3-4 倍（达到 30Hz 实时要求），同时在多个基准测试中保持甚至超越了原本的 SOTA 成功率。

背景定位：在 VLA 领域，虽然离散扩散模型（如 DD-VLA, Dream-VLA）比自回归（AR）模型具有更好的对齐能力，但其全双向注意力导致无法复用 KV Cache。Fast-dVLA 处于加速优化层，通过对去噪轨迹的重新排布，将 dVLA 推向了工业级部署的高度。

痛点深挖：为什么 dVLA 跑不快？

传统的离散扩散 VLA（如 Figure 1 所示）在生成动作序列时，通常采用全局双向注意力。这意味着在每一次去噪迭代中，序列中的每一个 Token 都要与所有其他 Token 进行计算。

KV Cache 失效：由于每一轮迭代所有位置的 Represenation 都会变，传统的自回归缓存机制完全排不上用场。
串行阻塞：目前的模型虽然能并行生成一个 Block 的 Action，但 Block 之间必须严格串行（只有前面的 Block 去噪完了，后面的才能开始）。

作者观察到一个名为“Block-wise AR Decoding”的有趣现象（见 Figure 3）：即便使用了双向注意力，预训练模型在去噪过程中依然隐性地表现出从左到右（先时间早、后时间晚）的解码倾向。

去噪可视化 Figure 3: 观察发现模型天然存在由左至右的去噪重心偏移

方法论详解：Fast-dVLA 的解法

Fast-dVLA 从**空间（Attention）和时间（Denoising Step）**两个维度进行了重构。

1. 块状注意力 (Block-wise Attention)

为了复用 KV Cache，作者将注意力模式修改为图 5 所示的块状因果模式。

内并行，间因果：Block 内部是双向的，保证生成质量；Block 之间是因果的，保证前序 Block 的 KV 状态一旦确定就不再更改，从而可以被后续迭代直接读取。

块状注意力架构 Figure 5 & 4b: 块间因果性使得 KV Cache 的持久化复用变得可能

2. 扩散强迫 (Diffusion Forcing) 与流水线解码

这是本文最精妙的地方。传统的去噪是全局一致的，而 Fast-dVLA 允许序列的不同部分处于不同的“去噪阶段”：

噪声梯度：给序列中的 Blocks 分配单调递增的噪声水平（$t_1 < t_2 < ... < t_n$）。
流水线 (Pipelined Parallel Decoding)：当前的 Block 还没完全去噪（Semi-activated），后续的 Block 就可以基于当前的不确定状态提前开始“热身预判”。这极大提高了硬件利用率。

实验与结果 (Experiments & Results)

SOTA 对比：速度与性能的双重飞跃

在 LIBERO 榜单上，Fast-dVLA 将 DD-VLA 这一强基线的推理速度从 152.1 Tokens/s 提升至 402.7 Tokens/s (4.1x)。更难得的是，成功率从 96.3% 提升到了 96.6%。

性能对比

非对称蒸馏带来的极速收敛 (LAD)

为了让修改了注意力模式后的模型快速恢复能力，作者采用了非对称蒸馏。实验证明，这种策略比从头训练（Lact）或从微调权重继续训练（LBD）要快得多，仅需 1/10 的训练步数。

训练曲线对比 Figure 8: 蓝色曲线显示了非对称蒸馏极速下降的收敛速度

深度洞察与总结 (Critical Analysis)

为什么 Fast-dVLA 甚至能超过基线成功率？

作者在消融实验中指出，块状注意力引入的“时间因果性”实际上起到了一种正则化作用。它可以防止后序（未来时间轴）的不确定动作 Token 产生的噪声通过全双向注意力干扰到当前的动作决策，这增强了物理执行中的时序一致性。

局限性与未来展望

虽然 Fast-dVLA 在离散动作空间效果惊人，但对于需要极高精度的连续空间（如精密电子组装）是否依然能保持优势？目前的块大小（Block size）还需要根据动作维度进行启发式设置（建议为动作维度的倍数），未来是否能实现全自动的动态块划分将是一个有趣的研究方向。

总结：Fast-dVLA 扫清了离散扩散模型进入真实机器人生产线的最后一道障碍——实时性。它用“流水线解码”的思想重现了扩散模型的推理轨迹。

发现相似论文

试试这些示例

查找最近一年内针对离散扩散语言模型（dLLM）进行推理加速的其他主流技术路线。
哪篇论文最早在扩散模型中提出了“Diffusion Forcing”概念，本文在具身行动序列中是如何改进该定义的？
调研当前 SOTA VLA 模型（如 pi0 或 OpenVLA）在处理高频闭环控制任务时刻面临的延迟瓶颈及解决方案。

[2026] Fast-dVLA：打破离散扩散瓶颈，实现具身智能 SOTA 实时推理

1. 核心速览 (Executive Summary)

2. 痛点深挖：为什么 dVLA 跑不快？

3. 方法论详解：Fast-dVLA 的解法

3.1. 1. 块状注意力 (Block-wise Attention)

3.2. 2. 扩散强迫 (Diffusion Forcing) 与流水线解码

4. 实验与结果 (Experiments & Results)

4.1. SOTA 对比：速度与性能的双重飞跃

4.2. 非对称蒸馏带来的极速收敛 (LAD)

5. 深度洞察与总结 (Critical Analysis)

5.1. 为什么 Fast-dVLA 甚至能超过基线成功率？

5.2. 局限性与未来展望