WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[2026 顶刊] DySL-VLA:打破 VLA 模型推理瓶颈,实现机器人实时控制的“动态跳帧”
总结
问题
方法
结果
要点
摘要

本文提出了 DySL-VLA,一种针对机器人操纵任务的视觉-语言-动作(VLA)模型高效推理框架。该方法通过动态跳过非关键层,在 Calvin 数据集上将推理速度提升了 3.75 倍,且训练参数量仅为基线的 1.17%,实现了 SOTA 性能与效率的平衡。

TL;DR

传统的 Vision-Language-Action (VLA) 模型虽然聪明,但“慢”是其致命伤。本文提出的 DySL-VLA 捕捉到了一个核心物理直觉:机器人做动作时,并不是每一秒都同等重要。通过动态跳过大模型中的非核心计算层,DySL-VLA 在保持高精度的同时,实现了 3.75 倍的推理加速,并将训练开销降低了两个数量级,成功让 7B 级别的 VLA 模型在 Jetson Orin 等嵌入式设备上跑出了 23.2 Hz 的实时频率。

1. 痛点:昂贵的“平均主义”计算

目前的 VLA 模型(如 OpenVLA)通常将 LLM 作为骨干网络,推理延迟极大。现有的加速方案(如剪枝、量化)往往对所有动作“一视同仁”。但实际上:

  • 非关键动作:例如机械臂在空中的预备移动,轨迹平滑且容错率高。
  • 关键动作:例如手指接触物体的一瞬间,需要极高的感知精度和快速反应。

如果对所有步数都堆叠几十层 Transformer 计算,那就是计算资源的巨大浪费;如果直接使用 Early-exit(提前退出),又可能在关键时刻丢失深层特征。

2. 核心直觉:哪些层可以省?什么时候可以省?

2.1 动态-静态层划分 (Dynamic-Static Layer-Skipping)

作者通过分析发现(见下图),VLA 模型中不同层对激活值的改变贡献完全不同。

  • 静态层 (Static Layers):信息量巨大的“核心层”,必须保留。
  • 动态层 (Dynamic Layers):贡献较小的“增量层”,可以根据情况跳过。

模型架构与动态跳过示意图 不同层跳过后的性能跌幅分析:某些层(如图中波谷)是绝对不能跳过的“信息重地”。

2.2 动作连续性 = 计算复杂度的开关

如何判断当前动作重不重要?作者引入了轨迹连续性 (Trajectory Continuity) 的概念。当机械臂匀速移动时,连续性高,说明任务处于平稳阶段,此时开启“跳过模式”;当检测到动作发生急剧变化或微调时(连续性断裂),说明进入了关键阶段,此时强制关闭跳过功能,全功率计算。

3. 技术实现:由浅入深的“渐进式”学习

3.1 前后跳过指引 (Prior-post skipping guidance)

为了防止跳过决策失误,DySL-VLA 设计了双重保险:

  • Pre-skip Prediction:基于历史轨迹预测当前是否可以跳过。
  • Post-skip Verification:一旦发现动作预测值异常,立即触发重算,确保精度万无一失。

3.2 跳过感知的两阶段蒸馏

直接训练跳过控制器会导致不收敛。作者采用分步走战略:

  1. 第一阶段:只练 Adapter(适配器),让它学习如何补偿被跳过层的信息。
  2. 第二阶段:联合训练 Controller 和 Adapter,使用任务损失和稀疏性损失平衡精度与速度。

训练流程图 两阶段训练:先学“补偿”,再学“决策”。

4. 实验战果:更轻、更快、更强

在受限的嵌入式平台 Jetson Orin 上,DySL-VLA 的表现优异:

  • 速度提升:相比 RoboFlamingo 基线提升 3.75x。
  • 训练效率:可训练参数量从 1.2B 降低到 14M
  • 任务成功率:在 Calvin 数据集上,不仅没降,反而比此前的 DeeR-VLA 提升了 2.1%

实验结果对比表 DySL-VLA 在大幅减少参数和计算量的同时,保持了极高的任务成功长度。

5. 深度洞察

DySL-VLA 的成功揭示了机器人学中一个重要的 Inductive Bias:物理世界的连续性可以反哺神经网络的计算分配。 之前的加速研究大多集中在视觉 Token 的压缩上,而本文成功将注意力转向了 LLM 骨干网络的深度方向(Layer-wise redundancy)。

局限性探讨:该方法依赖于轨迹连续性的阈值设定,对于某些天生不连续的任务(如跳跃、快速敲击)可能需要更复杂的启发式规则。

结论

DySL-VLA 不仅仅是一个加速算法,它代表了未来“具身智能”的一个重要趋势:按需分配计算资源。在资源受限的硬件上,这种动态决策机制是通往 SOTA VLA 模型大规模工业应用的必经之路。

发现相似论文

试试这些示例

  • 查找最近一年内其他利用动作重要性或轨迹连续性来优化机器人 VLA 模型推理效率的研究。
  • 哪篇论文最早在 Transformer 架构中提出了 Dynamic Layer Skipping 或 Mixture-of-Depths 概念,本文在跳过策略上有何创新?
  • 调研 DySL-VLA 这种基于连续性判断的动态跳过机制,在自动驾驶或无人机避障等高动态任务中的应用潜力。
目录
[2026 顶刊] DySL-VLA:打破 VLA 模型推理瓶颈,实现机器人实时控制的“动态跳帧”
1. TL;DR
2. 1. 痛点:昂贵的“平均主义”计算
3. 2. 核心直觉:哪些层可以省?什么时候可以省?
3.1. 2.1 动态-静态层划分 (Dynamic-Static Layer-Skipping)
3.2. 2.2 动作连续性 = 计算复杂度的开关
4. 3. 技术实现:由浅入深的“渐进式”学习
4.1. 3.1 前后跳过指引 (Prior-post skipping guidance)
4.2. 3.2 跳过感知的两阶段蒸馏
5. 4. 实验战果:更轻、更快、更强
6. 5. 深度洞察
7. 结论