WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[Arxiv 2026] VAMPO:通过策略优化重塑 VLA 系统的视觉“想象力”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VAMPO,一种通过策略优化增强视频动作模型(Video Action Models)视觉动力学精度的后训练框架。该方法将多步去噪建模为顺序决策过程,并利用 GRPO 算法在隐空间优化视觉动力学,显著提升了机器人操控任务的成功率。

TL;DR

在机器人控制领域,视频动作模型(Video Action Models)正成为构建视觉-语言-动作(VLA)系统的新基石。然而,传统的视频模型往往“空有其表”——能生成看起来合理的画面,但在位姿、接触点等物理动力学细节上存在偏差。本文提出的 VAMPO 框架,通过强化学习中的 GRPO 算法对视频模型进行后训练,将去噪过程视为策略优化问题,显著增强了模型对精准视觉动力学的捕捉能力,让机器人从“看懂”进化到“精准预判”。

痛点深挖:似然目标的“美丽误会”

目前的视频动作模型通常分为视频预测模型(VPM)和动作生成模型(AGM)。VPM 负责“想象”未来,AGM 负责依据想象执行动作。

然而,基于扩散模型的 VPM 在训练时通常采用类似 ELBO (Evidence Lower Bound) 的似然代理目标。这种目标函数更关注数据分布的整体拟合,而非控制任务中的关键精度指标。例如:

  • 物体位姿的几毫米偏差;
  • 抓夹与物体接触的精确一帧;
  • 遮挡关系中的细微空间变化。

对于 AGM 来说,这些“微小误差”在决策边界处会被放大,导致机器人抓空、碰撞或时机不当。

核心机制:去噪过程即策略优化

VAMPO 的核心直觉是:将多步去噪看作一个顺序决策过程(Sequential Decision Process)

1. 从 ODE 采样到 MDP 建模

作者将每一步去噪动作定义为状态转移,并利用专家演示的隐空间表示(Latent Space)作为奖励反馈。为了解决策略梯度估计在确定性去噪(ODE 轨迹)中梯度方差过大的问题,VAMPO 设计了 Euler Hybrid 采样器

模型架构图 图 1: VAMPO 训练范式概览。左侧展示了从预训练到策略优化的转变。

  • 首步随机化 (1-step SDE):仅在第一步注入高斯噪声,提供必要的探索空间和可计算的概率密度。
  • 剩余步确定化 (Remaining Steps ODE):后续步骤保持确定性计算,不仅降低了信用分配(Credit Assignment)的难度,还确保了视频的时序相干性。

2. 引入 GRPO 与可验证奖励

VAMPO 采用了 DeepSeek 等大模型中常用的 GRPO (Group Relative Policy Optimization) 算法。通过对一组候选生成的奖励进行归一化,模型能够更稳定地向“高奖励”轨迹靠拢。奖励函数结合了 L1 距离和余弦相似度,直接在隐空间对齐预测与真实的视觉演化轨迹。

实验与结果:不仅更准,而且更“丰富”

在最具挑战性的 CALVIN ABC→D(跨场景泛化)任务中,VAMPO 刷新了多项记录。

实验结果对比 表 1: 与 SOTA 方法在 CALVIN 环境下的对比,展示了 VAMPO 在长序列任务中的优势。

深度分析:Vision-Action Coupling 作者引入了一个有趣的度量——有效秩 (Effective Rank, ER)。研究发现,经过 VAMPO 优化的模型,其 Jacobian 矩阵(动作/视觉)的有效秩显著提高。这意味着下游的动作生成模型(AGM)在决策时,会考虑更多互相独立的视觉特征维度,即“视觉-动作耦合”变得更加丰富且鲁棒。

现实世界的考验

VAMPO 在 Agibot Genie 01(元化机器人双臂平台)上进行了验证。在“杂乱环境下抓取苹果”和“双臂协作搬运瓶子”任务中,VAMPO 展现了极强的空间推理能力,即使在背景和光照发生变化的现实场景中,依然能生成精准的引导表征。

现实世界实验 图 2: 在真实机器人平台上的任务表现。

深度洞察与总结

VAMPO 的成功在于它精准捕捉到了“预测质量”与“控制质量”之间的鸿沟。

优点:

  • 架构无感:无需修改任何 VPM 或 AGM 的模型结构。
  • 高效稳定:Hybrid 采样器解决了扩散模型强化学习中常见的训练不稳和计算开销问题。

局限性:

  • 奖励函数目前仍依赖于专家演示的隐空间对齐,这限制了其在完全无标注数据上的自我进化能力。

未来展望: 这种将生成式模型作为“策略”进行后训练的思路,可能会推广到更多需要高精度物理推理的领域,如端到端自动驾驶中的轨迹预判。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试通过强化学习或策略优化(Policy Optimization)来改进扩散模型生成质量的论文。
  • 哪篇论文最早提出了将扩散模型去噪过程建模为 MDP(马尔可夫决策过程)?本文在采样器设计上做了哪些核心改进?
  • 有哪些研究将类似 VAMPO 的视觉动力学优化方法应用到了自动驾驶预测或无人机导航任务中?
Contents
[Arxiv 2026] VAMPO:通过策略优化重塑 VLA 系统的视觉“想象力”
1. TL;DR
2. 痛点深挖:似然目标的“美丽误会”
3. 核心机制:去噪过程即策略优化
3.1. 1. 从 ODE 采样到 MDP 建模
3.2. 2. 引入 GRPO 与可验证奖励
4. 实验与结果:不仅更准,而且更“丰富”
5. 现实世界的考验
6. 深度洞察与总结