ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

[Phys 2026] ViVa：赋予机器人“远见”，用视频生成模型重塑强化学习价值函数

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ViVa，一种基于视频生成预训练模型（Video-generative Value model）的机器人强化学习价值函数。该方法通过将预训练视频扩散模型 Wan2.2 重新建模，使其能够根据当前多视图观测和机器人本体感知，联合预测未来状态及标量价值。在现实世界的复杂任务（如纸箱组装）中，ViVa 显著提升了策略的成功率和鲁棒性。

TL;DR

在机器人强化学习中，判断当前动作“好不好”往往依赖于价值函数。传统的 VLM 方案由于缺乏对物理动态的感悟，经常在复杂操作中“间歇性失明”。本文提出的 ViVa 通过“借用”视频生成模型的时空建模能力，让机器人在评估当前价值时必须先“想象”一下未来的动作走向。实验证明，这种带预见的价值评估让机器人在组装纸箱等长程任务中，成功率从 58% 飙升至 73%。

痛点深挖：判别式 VLM 的“静态局限”

目前的 Vision-Language-Action (VLA) 模型虽然在语义理解上很强，但在处理机器人操作时存在一个致命伤：缺乏对物理演化的直觉。

Prior Work 的缺陷：现有的价值模型多是判别式的，它们把每一帧看作独立的切片。就像一个只看过照片的人，很难理解把零件拼歪 1 厘米会对 10 秒后的成败产生多大影响。
研究动机：作者认为，价值估算本质上是一个预测未来的问题。如果模型能预测未来场景如何演化，它自然就能更好地判断当前状态是否处于通往成功的正轨上。

方法论详解：将价值注入潜空间

ViVa 并没有盲目堆叠参数，而是巧妙地将预训练的视频生成器（Wan2.2）改造为一个多模态预测器。

1. 潜空间注入 (Latent Injection)

为了不改动预训练模型的结构，ViVa 将非图像数据（机器人关节位置、标量价值）映射为与视频帧相同维度的 Latent Frames。

Proprioception (本体感知)：通过 Repeat-padding 填充。
Scalar Value (价值)：通过 Broadcast 广播到整个潜帧。

2. 联合预测机制

ViVa 的核心直觉在于：价值估计必须与具身动力学（Embodiment Dynamics）耦合。模型输入的序列包含： [当前观测图像 + 当前本体感知状态 + 未来本体感知的噪声占位符 + 价值的噪声占位符]

通过 Diffusion Transformer 进行去噪，模型被迫在预测价值的同时，必须思考机械臂在未来 K 步会移动到哪里。

模型架构图

实验与结果：敏锐的故障检测器

在复杂的实物实验中，ViVa 表现出了惊人的“预警”能力。

SOTA 对比：

在纸箱组装（Box Assembly）这一高难度、长路径任务中，ViVa 配合 RECAP 算法，显著优于纯模仿学习方案和基于 VLM 的优化方案。

| 方法 | 成功率 (%) | 吞吐量 (次/小时) | | :--- | :--- | :--- | | Gigabrain-0 (Base) | 53 | 10 | | RECAP (VLM Value) | 58 | 11 | | RECAP (ViVa) | 73 | 14 |

关键洞察：为什么要预测未来轨迹？

下方的实验图表揭示了 ViVa 的优越性。当机器人出现“对齐偏差”或“由于重心不稳导致倾斜”时，ViVa 的价值曲线会迅速出现尖锐的下降（蓝色阴影区），而 VLM 方案则对此几乎无感，依旧盲目乐观。

实验结果对比

零样本泛化 (Zero-shot)

最令人兴奋的是，ViVa 在处理从未见过的物体（如折叠裤子，而训练集只有衬衫）时，依然能准确识别出“提起”、“折叠裤腿”、“对齐”等关键里程碑动作，这得益于视频模型中蕴含的通用物理先验。

深度洞察与总结

Takeaway: ViVa 的成功再一次证明了，对于具身智能而言，生成式预训练（Generative Pretraining）提供的是一种更深层的物理世界规律总结。将价值函数从一个简单的分类器提升为一个“想象力引擎”，是解决复杂机器人交互任务的关键。

局限性:

单步推理延迟（0.18s）虽优于传统 VLM，但对于极高频的实时闭环控制仍有提升空间。
依赖高质量的成功/失败演示数据进行价值标定。

未来展望: 未来的机器人可能会拥有更强大的“世界模型”，不仅仅是预测下一步的图像，而是能够根据当前的价值引导，在潜空间中反复试错，从而在真正动手之前就筛选出最优的操作路径。

Find Similar Papers

Try Our Examples

查找最近除 ViVa 之外，还有哪些研究尝试利用视频扩散模型（Video Diffusion Models）作为世界模型或奖励函数来优化机器人策略？
追溯 RECAP 框架的原始论文，并分析 ViVa 提出的“价值与动力学联合预测”是如何改进 RECAP 中 Advantage 估算的准确性的？
探讨将 ViVa 模型中的视频生成先验扩展到多模态操作任务（如结合音频触觉反馈）的可行性研究有哪些？

Contents

[Phys 2026] ViVa：赋予机器人“远见”，用视频生成模型重塑强化学习价值函数

1. TL;DR

2. 痛点深挖：判别式 VLM 的“静态局限”

3. 方法论详解：将价值注入潜空间

3.1. 1. 潜空间注入 (Latent Injection)

3.2. 2. 联合预测机制

4. 实验与结果：敏锐的故障检测器

4.1. SOTA 对比：

4.2. 关键洞察：为什么要预测未来轨迹？

4.3. 零样本泛化 (Zero-shot)

5. 深度洞察与总结