WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] DFM-VLA:打破“一掷定乾坤”,离散流匹配开启机器人动作迭代修正时代
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 DFM-VLA,一种基于离散流匹配(Discrete Flow Matching)的视觉-语言-动作模型。该模型通过引入令牌级概率速度场,实现了对动作序列的并行迭代修正,在 CALVIN (Avg. Len 4.44) 和 LIBERO (95.7% Success Rate) 等机器人操控基准测试中达到了 SOTA 性能。

TL;DR

在机器人操控领域,视觉-语言-动作模型(VLA)正面临一个尴尬的瓶颈:早期报错,满盘皆输。本文提出的 DFM-VLA 引入了离散流匹配(Discrete Flow Matching)技术,让模型具备了“反悔”的能力。通过在生成过程中动态调整已生成的动作令牌,DFM-VLA 在 CALVIN 和 LIBERO 等基准测试上全面刷新纪录,并实现了推理速度的翻倍。

1. 痛点:不可逆的“致命错误”

目前的 VLA 模型主要分为两派:

  1. 自回归 (AR):逐个令牌预测。一旦第一个动作令牌错位,后面的序列往往会错上加错。
  2. 离散扩散 (DD):虽然支持并行,但在早期迭代中确定的高置信度令牌在后期很难被大规模重写。

作者将此现象称为 Irreversible Commitment (不可逆承诺)。在精细的机器人操作(如开门、抓取细小物体)中,这种缺乏容错机制的解码方式正是导致模型性能触顶的主因。

2. 核心直觉:引入“速度场”的动态修正

DFM-VLA 的核心思想是不再把动作生成看作“填空题”,而是一个“演化过程”。

行动令牌的流匹配

模型通过建模一个令牌级概率速度场 (Probability Velocity Field) 来指导动作序列的更新。这意味着在每一个解码步骤中,模型不仅在预测“正确的动作是什么”,还在计算“当前令牌应该以多快的速度向目标状态演化”。

两种建模方案

论文深入探讨了两种构建速度场的方式:

  • Auxiliary Velocity Head:额外增加一个预测头来输出更新速率。
  • Action-Embedding-Guided (本文推荐):利用动作令牌在嵌入空间中的几何距离来引导路径。直观地说,语义越接近的动作,它们之间的“流动”就越顺滑。

模型架构图 图 1:DFM-VLA 整体架构,统一了视觉、语言和动作的离散表示。

3. 解码黑科技:两阶段与自适应加速

为了平衡“灵活性”与“稳定性”,DFM-VLA 采用了一个聪明的两阶段解码策略:

  1. 迭代修正阶段 (Refinement Stage):使用 Euler 离散化采样,允许令牌通过随机跳变进行探索和错误修正。
  2. 确定性验证阶段 (Validation Stage):在最后几步切换为贪婪解码,强制收敛到稳定输出。

此外,为了解决迭代带来的计算开销,作者引入了 Adaptive KV Caching。通过检测动作令牌特征的变化幅度,模型可以跳过那些不需要更新的 KV 缓存,最终在 H100 GPU 上实现了 121.0 tokens/s 的高推理速度,比传统 AR 模型快 2.4 倍。

4. 实验战绩:SOTA 与真实世界泛化

在仿真环境 CALVIN 中,DFM-VLA 展现了极强的长程任务一致性。

实验结果对比 表 1:在 CALVIN ABCD→D 任务中,DFM-VLA 以 4.44 的平均长度位居第一。

在更为复杂的 LIBERO 任务中,DFM-VLA 在 Object(物体泛化)和 Long(长程组合)子项上表现尤为出色,平均成功率达到 95.7%。这证明了其在面对未见物体和复杂逻辑时的稳健性。

真实世界表现

在真实的 AgileX 双臂机器人平台上,DFM-VLA 完成了协同抬锅、置物等复杂任务,平均成功率(70.8%)大幅领先于基于扩散模型的 baseline (60.0%) 和 π0-FAST 等方法。

5. 深度洞察

为什么 DFM-VLA 这么强?

  • 低数据制度下的韧性:消融实验显示,在仅使用 10% 数据时,DFM-VLA 的领先优势最大。这说明迭代修正机制能显著降低模型对海量专家数据的依赖。
  • 语义感知:Embedding 引导的流匹配利用了动作空间的流形结构,使得错误修正变得“有迹可循”。

6. 总结与展望

DFM-VLA 成功地将生成式 AI 的前沿理论(DFM)应用于机器人操控。它告诉我们,赋予机器人“思考并更正”的能力,比让它“过目不忘”更加重要。未来的挑战可能在于如何将此架构扩展到更高维度(如全身控制)以及如何进一步压缩迭代步数以适应极致的实时性要求。


参考资料

Find Similar Papers

Try Our Examples

  • 查找最近其他针对机器人操控任务中 Transformer 轨迹生成误差累积问题的论文。
  • 哪篇论文最早将 Discrete Flow Matching 应用于大语言模型,DFM-VLA 在速度场构造上与其有何不同?
  • 目前有哪些研究利用动作空间嵌入(Action Embedding)的几何结构来改进强化学习或仿人机器人策略?
Contents
[CVPR 2026] DFM-VLA:打破“一掷定乾坤”,离散流匹配开启机器人动作迭代修正时代
1. TL;DR
2. 1. 痛点:不可逆的“致命错误”
3. 2. 核心直觉:引入“速度场”的动态修正
3.1. 行动令牌的流匹配
3.2. 两种建模方案
4. 3. 解码黑科技:两阶段与自适应加速
5. 4. 实验战绩:SOTA 与真实世界泛化
5.1. 真实世界表现
6. 5. 深度洞察
7. 6. 总结与展望