WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026/arXiv] Action Draft and Verify: 扩散模型也需要 VLM 的“常识性”审计
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Action Draft-and-Verify (ADV),一种为视觉-语言-动作 (VLA) 模型设计的自验证推理框架。该方法利用扩散动作专家并行生成多个候选动作块(Draft),再通过 VLM 的 perplexity 指数进行单次前向推理评分并择优(Verify),在维持高精度控制的同时显著增强了模型在分布外场景下的鲁棒性。

TL;DR

传统的 Vision-Language-Action (VLA) 模型在面对陌生环境(OOD)时往往像无头苍蝇:扩散模型生成的动作虽精细但缺乏逻辑,自回归模型逻辑在线但精度堪忧。本文提出 Action Draft-and-Verify (ADV) 框架,让扩散专家“打草稿”,VLM 负责“审核”。相比纯扩散基线,该方法在真实世界任务中成功率飙升 19.7%,且推理开销极低。

核心速览:谁说大模型只能做决策?

文章开篇指出,当前的 VLA 领域存在一个有趣的矛盾:

  • Diffusion Expert(如 π0):擅长生成平滑、高精度的连续动作,但在面对训练集没见过的场景时,容易产生无意义的抖动。
  • Auto-Regressive VLM(如 RT-2):具备强大的语义先验,知道“拿不稳就要重试”,但生成长序列动作太慢。

ADV 框架 的核心直觉是:不需要让 VLM 去费力生成每一个动作,只需要让它在扩散模型给出的数十个备选方案中,选出那个“看起来最顺眼”的即可。

痛点深挖:扩散模型的“迷茫”

作者在 RoboTwin2.0 实验中观察到,在分布外(OOD)环境下,扩散模型由于缺乏结构化的泛化能力,其“恢复尝试(Recovery Attempts)”次数从 4.5 骤降至 0.4。这意味着一旦第一次抓取失败,机器人就彻底“摆烂”了。而自回归模型依然能保持纠错逻辑。

方法论详解:Textual FAST 与 Perplexity 验证

ADV 的工作流分为两步:

  1. Draft(草拟):扩散专家根据 VLM 提供的特征,通过不同的噪声注入生成 个候选轨迹。
  2. Verify(验证):这是本文的神来之笔。作者提出 Textual FAST 动作编码方法。
    • 首先用 FAST 算法压缩动作。
    • 然后将编码翻译成纯文本。
    • 最后利用训练好的 VLM 在一个 Forward Pass 内计算这些文本序列的 Perplexity(困惑度分数)。

ADV 流程与架构

为何有效? 因为 Textual FAST 将动作表示为了“类语言”形式,这与 VLM 在海量互联网文本上训练出的分布高度重合,使得 VLM 能够利用其内在的“物理常识”来剔除那些不符合逻辑的动作块(如穿模、空抓)。

实验与结果:真实的救火队员

在 LIBERO 和 RoboTwin 仿真中,ADV 表现优异。但最令人印象深刻的是在 Real-World 实验中:

  • 通用性:该方法适用于 Qwen2.5-VL, InternVL3.5 等多种主流模型。
  • 稳定性:在机器人抓取任务中,ADV 将碰撞率从 29.7% 压制到了极低水平。

实验结果对比表格

消融实验进一步证明,ADV 并不要求 VLM 选出“全球第一”的动作,只要能剔除掉那些最离谱的“败笔轨迹”,整系统的鲁棒性就会出现质的飞跃。

深度洞察与总结

Takeaway: ADV 证明了“解码即选择(Decoding-as-selection)”在具身智能中的有效性。它不改变扩散模型底层的生产能力,而是通过引入一个“裁判”来兜底。

局限性

  • 受限库:如果扩散专家提出的所有草案(Drafts)都是错的,VLM 也无能为力。
  • 时延:虽然单次前向评分很快,但生成多个候选块并评分仍会增加一定的推理毫秒数。

未来展望:这种“草稿+审核”的模式极大降低了对 VLA 数据量的依赖,未来或许可以作为通用 VLM 适配各种专项动作机器人的统一中间件。

Find Similar Papers

Try Our Examples

  • 查找最近其他结合扩散策略(Diffusion Policy)与自回归视觉语言模型(VLM)以提升具身智能模型鲁棒性的研究论文。
  • 哪篇论文最早提出了 FAST 动作表征方法,ADV 提出的 Textual FAST 在其基础上做了哪些具体的文本对齐改进?
  • 探索 ADV 这种“先草拟再验证”的推理范式在多模态理解或其他实时机器人控制任务(如避障、导航)中的应用潜力及相关文献。
Contents
[CVPR 2026/arXiv] Action Draft and Verify: 扩散模型也需要 VLM 的“常识性”审计
1. TL;DR
2. 核心速览:谁说大模型只能做决策?
3. 痛点深挖:扩散模型的“迷茫”
4. 方法论详解:Textual FAST 与 Perplexity 验证
5. 实验与结果:真实的救火队员
6. 深度洞察与总结