Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model

[CVPR 2026/arXiv] Action Draft and Verify: 扩散模型也需要 VLM 的“常识性”审计

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Action Draft-and-Verify (ADV)，一种为视觉-语言-动作 (VLA) 模型设计的自验证推理框架。该方法利用扩散动作专家并行生成多个候选动作块（Draft），再通过 VLM 的 perplexity 指数进行单次前向推理评分并择优（Verify），在维持高精度控制的同时显著增强了模型在分布外场景下的鲁棒性。

TL;DR

传统的 Vision-Language-Action (VLA) 模型在面对陌生环境（OOD）时往往像无头苍蝇：扩散模型生成的动作虽精细但缺乏逻辑，自回归模型逻辑在线但精度堪忧。本文提出 Action Draft-and-Verify (ADV) 框架，让扩散专家“打草稿”，VLM 负责“审核”。相比纯扩散基线，该方法在真实世界任务中成功率飙升 19.7%，且推理开销极低。

核心速览：谁说大模型只能做决策？

文章开篇指出，当前的 VLA 领域存在一个有趣的矛盾：

Diffusion Expert（如 π0）：擅长生成平滑、高精度的连续动作，但在面对训练集没见过的场景时，容易产生无意义的抖动。
Auto-Regressive VLM（如 RT-2）：具备强大的语义先验，知道“拿不稳就要重试”，但生成长序列动作太慢。

ADV 框架 的核心直觉是：不需要让 VLM 去费力生成每一个动作，只需要让它在扩散模型给出的数十个备选方案中，选出那个“看起来最顺眼”的即可。

痛点深挖：扩散模型的“迷茫”

作者在 RoboTwin2.0 实验中观察到，在分布外（OOD）环境下，扩散模型由于缺乏结构化的泛化能力，其“恢复尝试（Recovery Attempts）”次数从 4.5 骤降至 0.4。这意味着一旦第一次抓取失败，机器人就彻底“摆烂”了。而自回归模型依然能保持纠错逻辑。

方法论详解：Textual FAST 与 Perplexity 验证

ADV 的工作流分为两步：

Draft（草拟）：扩散专家根据 VLM 提供的特征，通过不同的噪声注入生成 $M$ 个候选轨迹。
Verify（验证）：这是本文的神来之笔。作者提出 Textual FAST 动作编码方法。
- 首先用 FAST 算法压缩动作。
- 然后将编码翻译成纯文本。
- 最后利用训练好的 VLM 在一个 Forward Pass 内计算这些文本序列的 Perplexity（困惑度分数）。

ADV 流程与架构

为何有效？ 因为 Textual FAST 将动作表示为了“类语言”形式，这与 VLM 在海量互联网文本上训练出的分布高度重合，使得 VLM 能够利用其内在的“物理常识”来剔除那些不符合逻辑的动作块（如穿模、空抓）。

实验与结果：真实的救火队员

在 LIBERO 和 RoboTwin 仿真中，ADV 表现优异。但最令人印象深刻的是在 Real-World 实验中：

通用性：该方法适用于 Qwen2.5-VL, InternVL3.5 等多种主流模型。
稳定性：在机器人抓取任务中，ADV 将碰撞率从 29.7% 压制到了极低水平。

实验结果对比表格

消融实验进一步证明，ADV 并不要求 VLM 选出“全球第一”的动作，只要能剔除掉那些最离谱的“败笔轨迹”，整系统的鲁棒性就会出现质的飞跃。

深度洞察与总结

Takeaway: ADV 证明了“解码即选择（Decoding-as-selection）”在具身智能中的有效性。它不改变扩散模型底层的生产能力，而是通过引入一个“裁判”来兜底。

局限性：

受限库：如果扩散专家提出的所有草案（Drafts）都是错的，VLM 也无能为力。
时延：虽然单次前向评分很快，但生成多个候选块并评分仍会增加一定的推理毫秒数。

未来展望：这种“草稿+审核”的模式极大降低了对 VLA 数据量的依赖，未来或许可以作为通用 VLM 适配各种专项动作机器人的统一中间件。

Find Similar Papers

Try Our Examples

查找最近其他结合扩散策略（Diffusion Policy）与自回归视觉语言模型（VLM）以提升具身智能模型鲁棒性的研究论文。
哪篇论文最早提出了 FAST 动作表征方法，ADV 提出的 Textual FAST 在其基础上做了哪些具体的文本对齐改进？
探索 ADV 这种“先草拟再验证”的推理范式在多模态理解或其他实时机器人控制任务（如避障、导航）中的应用潜力及相关文献。

Contents

[CVPR 2026/arXiv] Action Draft and Verify: 扩散模型也需要 VLM 的“常识性”审计

1. TL;DR

2. 核心速览：谁说大模型只能做决策？

3. 痛点深挖：扩散模型的“迷茫”

4. 方法论详解：Textual FAST 与 Perplexity 验证

5. 实验与结果：真实的救火队员

6. 深度洞察与总结