DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

[2026 顶刊] DySL-VLA：打破 VLA 模型推理瓶颈，实现机器人实时控制的“动态跳帧”

总结

问题

方法

结果

要点

摘要

本文提出了 DySL-VLA，一种针对机器人操纵任务的视觉-语言-动作（VLA）模型高效推理框架。该方法通过动态跳过非关键层，在 Calvin 数据集上将推理速度提升了 3.75 倍，且训练参数量仅为基线的 1.17%，实现了 SOTA 性能与效率的平衡。

TL;DR

传统的 Vision-Language-Action (VLA) 模型虽然聪明，但“慢”是其致命伤。本文提出的 DySL-VLA 捕捉到了一个核心物理直觉：机器人做动作时，并不是每一秒都同等重要。通过动态跳过大模型中的非核心计算层，DySL-VLA 在保持高精度的同时，实现了 3.75 倍的推理加速，并将训练开销降低了两个数量级，成功让 7B 级别的 VLA 模型在 Jetson Orin 等嵌入式设备上跑出了 23.2 Hz 的实时频率。

1. 痛点：昂贵的“平均主义”计算

目前的 VLA 模型（如 OpenVLA）通常将 LLM 作为骨干网络，推理延迟极大。现有的加速方案（如剪枝、量化）往往对所有动作“一视同仁”。但实际上：

非关键动作：例如机械臂在空中的预备移动，轨迹平滑且容错率高。
关键动作：例如手指接触物体的一瞬间，需要极高的感知精度和快速反应。

如果对所有步数都堆叠几十层 Transformer 计算，那就是计算资源的巨大浪费；如果直接使用 Early-exit（提前退出），又可能在关键时刻丢失深层特征。

2. 核心直觉：哪些层可以省？什么时候可以省？

2.1 动态-静态层划分 (Dynamic-Static Layer-Skipping)

作者通过分析发现（见下图），VLA 模型中不同层对激活值的改变贡献完全不同。

静态层 (Static Layers)：信息量巨大的“核心层”，必须保留。
动态层 (Dynamic Layers)：贡献较小的“增量层”，可以根据情况跳过。

模型架构与动态跳过示意图 不同层跳过后的性能跌幅分析：某些层（如图中波谷）是绝对不能跳过的“信息重地”。

2.2 动作连续性 = 计算复杂度的开关

如何判断当前动作重不重要？作者引入了轨迹连续性 (Trajectory Continuity) 的概念。当机械臂匀速移动时，连续性高，说明任务处于平稳阶段，此时开启“跳过模式”；当检测到动作发生急剧变化或微调时（连续性断裂），说明进入了关键阶段，此时强制关闭跳过功能，全功率计算。

3. 技术实现：由浅入深的“渐进式”学习

3.1 前后跳过指引 (Prior-post skipping guidance)

为了防止跳过决策失误，DySL-VLA 设计了双重保险：

Pre-skip Prediction：基于历史轨迹预测当前是否可以跳过。
Post-skip Verification：一旦发现动作预测值异常，立即触发重算，确保精度万无一失。

3.2 跳过感知的两阶段蒸馏

直接训练跳过控制器会导致不收敛。作者采用分步走战略：

第一阶段：只练 Adapter（适配器），让它学习如何补偿被跳过层的信息。
第二阶段：联合训练 Controller 和 Adapter，使用任务损失和稀疏性损失平衡精度与速度。

训练流程图 两阶段训练：先学“补偿”，再学“决策”。

4. 实验战果：更轻、更快、更强

在受限的嵌入式平台 Jetson Orin 上，DySL-VLA 的表现优异：

速度提升：相比 RoboFlamingo 基线提升 3.75x。
训练效率：可训练参数量从 1.2B 降低到 14M。
任务成功率：在 Calvin 数据集上，不仅没降，反而比此前的 DeeR-VLA 提升了 2.1%。

实验结果对比表 DySL-VLA 在大幅减少参数和计算量的同时，保持了极高的任务成功长度。

5. 深度洞察

DySL-VLA 的成功揭示了机器人学中一个重要的 Inductive Bias：物理世界的连续性可以反哺神经网络的计算分配。之前的加速研究大多集中在视觉 Token 的压缩上，而本文成功将注意力转向了 LLM 骨干网络的深度方向（Layer-wise redundancy）。

局限性探讨：该方法依赖于轨迹连续性的阈值设定，对于某些天生不连续的任务（如跳跃、快速敲击）可能需要更复杂的启发式规则。

结论

DySL-VLA 不仅仅是一个加速算法，它代表了未来“具身智能”的一个重要趋势：按需分配计算资源。在资源受限的硬件上，这种动态决策机制是通往 SOTA VLA 模型大规模工业应用的必经之路。

发现相似论文

试试这些示例

查找最近一年内其他利用动作重要性或轨迹连续性来优化机器人 VLA 模型推理效率的研究。
哪篇论文最早在 Transformer 架构中提出了 Dynamic Layer Skipping 或 Mixture-of-Depths 概念，本文在跳过策略上有何创新？
调研 DySL-VLA 这种基于连续性判断的动态跳过机制，在自动驾驶或无人机避障等高动态任务中的应用潜力。

[2026 顶刊] DySL-VLA：打破 VLA 模型推理瓶颈，实现机器人实时控制的“动态跳帧”

1. TL;DR

2. 1. 痛点：昂贵的“平均主义”计算

3. 2. 核心直觉：哪些层可以省？什么时候可以省？

3.1. 2.1 动态-静态层划分 (Dynamic-Static Layer-Skipping)

3.2. 2.2 动作连续性 = 计算复杂度的开关

4. 3. 技术实现：由浅入深的“渐进式”学习

4.1. 3.1 前后跳过指引 (Prior-post skipping guidance)

4.2. 3.2 跳过感知的两阶段蒸馏

5. 4. 实验战果：更轻、更快、更强

6. 5. 深度洞察

7. 结论