VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models

[Arxiv 2026] VAMPO：通过策略优化重塑 VLA 系统的视觉“想象力”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 VAMPO，一种通过策略优化增强视频动作模型（Video Action Models）视觉动力学精度的后训练框架。该方法将多步去噪建模为顺序决策过程，并利用 GRPO 算法在隐空间优化视觉动力学，显著提升了机器人操控任务的成功率。

TL;DR

在机器人控制领域，视频动作模型（Video Action Models）正成为构建视觉-语言-动作（VLA）系统的新基石。然而，传统的视频模型往往“空有其表”——能生成看起来合理的画面，但在位姿、接触点等物理动力学细节上存在偏差。本文提出的 VAMPO 框架，通过强化学习中的 GRPO 算法对视频模型进行后训练，将去噪过程视为策略优化问题，显著增强了模型对精准视觉动力学的捕捉能力，让机器人从“看懂”进化到“精准预判”。

痛点深挖：似然目标的“美丽误会”

目前的视频动作模型通常分为视频预测模型（VPM）和动作生成模型（AGM）。VPM 负责“想象”未来，AGM 负责依据想象执行动作。

然而，基于扩散模型的 VPM 在训练时通常采用类似 ELBO (Evidence Lower Bound) 的似然代理目标。这种目标函数更关注数据分布的整体拟合，而非控制任务中的关键精度指标。例如：

物体位姿的几毫米偏差；
抓夹与物体接触的精确一帧；
遮挡关系中的细微空间变化。

对于 AGM 来说，这些“微小误差”在决策边界处会被放大，导致机器人抓空、碰撞或时机不当。

核心机制：去噪过程即策略优化

VAMPO 的核心直觉是：将多步去噪看作一个顺序决策过程（Sequential Decision Process）。

1. 从 ODE 采样到 MDP 建模

作者将每一步去噪动作定义为状态转移，并利用专家演示的隐空间表示（Latent Space）作为奖励反馈。为了解决策略梯度估计在确定性去噪（ODE 轨迹）中梯度方差过大的问题，VAMPO 设计了 Euler Hybrid 采样器。

模型架构图 图 1: VAMPO 训练范式概览。左侧展示了从预训练到策略优化的转变。

首步随机化 (1-step SDE)：仅在第一步注入高斯噪声，提供必要的探索空间和可计算的概率密度。
剩余步确定化 (Remaining Steps ODE)：后续步骤保持确定性计算，不仅降低了信用分配（Credit Assignment）的难度，还确保了视频的时序相干性。

2. 引入 GRPO 与可验证奖励

VAMPO 采用了 DeepSeek 等大模型中常用的 GRPO (Group Relative Policy Optimization) 算法。通过对一组候选生成的奖励进行归一化，模型能够更稳定地向“高奖励”轨迹靠拢。奖励函数结合了 L1 距离和余弦相似度，直接在隐空间对齐预测与真实的视觉演化轨迹。

实验与结果：不仅更准，而且更“丰富”

在最具挑战性的 CALVIN ABC→D（跨场景泛化）任务中，VAMPO 刷新了多项记录。

实验结果对比 表 1: 与 SOTA 方法在 CALVIN 环境下的对比，展示了 VAMPO 在长序列任务中的优势。

深度分析：Vision-Action Coupling 作者引入了一个有趣的度量——有效秩 (Effective Rank, ER)。研究发现，经过 VAMPO 优化的模型，其 Jacobian 矩阵（动作/视觉）的有效秩显著提高。这意味着下游的动作生成模型（AGM）在决策时，会考虑更多互相独立的视觉特征维度，即“视觉-动作耦合”变得更加丰富且鲁棒。

现实世界的考验

VAMPO 在 Agibot Genie 01（元化机器人双臂平台）上进行了验证。在“杂乱环境下抓取苹果”和“双臂协作搬运瓶子”任务中，VAMPO 展现了极强的空间推理能力，即使在背景和光照发生变化的现实场景中，依然能生成精准的引导表征。

现实世界实验 图 2: 在真实机器人平台上的任务表现。

深度洞察与总结

VAMPO 的成功在于它精准捕捉到了“预测质量”与“控制质量”之间的鸿沟。

优点：

架构无感：无需修改任何 VPM 或 AGM 的模型结构。
高效稳定：Hybrid 采样器解决了扩散模型强化学习中常见的训练不稳和计算开销问题。

局限性：

奖励函数目前仍依赖于专家演示的隐空间对齐，这限制了其在完全无标注数据上的自我进化能力。

未来展望： 这种将生成式模型作为“策略”进行后训练的思路，可能会推广到更多需要高精度物理推理的领域，如端到端自动驾驶中的轨迹预判。

Find Similar Papers

Try Our Examples

查找最近其他尝试通过强化学习或策略优化（Policy Optimization）来改进扩散模型生成质量的论文。
哪篇论文最早提出了将扩散模型去噪过程建模为 MDP（马尔可夫决策过程）？本文在采样器设计上做了哪些核心改进？
有哪些研究将类似 VAMPO 的视觉动力学优化方法应用到了自动驾驶预测或无人机导航任务中？

Contents

[Arxiv 2026] VAMPO：通过策略优化重塑 VLA 系统的视觉“想象力”

1. TL;DR

2. 痛点深挖：似然目标的“美丽误会”

3. 核心机制：去噪过程即策略优化

3.1. 1. 从 ODE 采样到 MDP 建模

3.2. 2. 引入 GRPO 与可验证奖励

4. 实验与结果：不仅更准，而且更“丰富”

5. 现实世界的考验

6. 深度洞察与总结