WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[Phys 2026] ViVa:赋予机器人“远见”,用视频生成模型重塑强化学习价值函数
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 ViVa,一种基于视频生成预训练模型(Video-generative Value model)的机器人强化学习价值函数。该方法通过将预训练视频扩散模型 Wan2.2 重新建模,使其能够根据当前多视图观测和机器人本体感知,联合预测未来状态及标量价值。在现实世界的复杂任务(如纸箱组装)中,ViVa 显著提升了策略的成功率和鲁棒性。

TL;DR

在机器人强化学习中,判断当前动作“好不好”往往依赖于价值函数。传统的 VLM 方案由于缺乏对物理动态的感悟,经常在复杂操作中“间歇性失明”。本文提出的 ViVa 通过“借用”视频生成模型的时空建模能力,让机器人在评估当前价值时必须先“想象”一下未来的动作走向。实验证明,这种带预见的价值评估让机器人在组装纸箱等长程任务中,成功率从 58% 飙升至 73%

痛点深挖:判别式 VLM 的“静态局限”

目前的 Vision-Language-Action (VLA) 模型虽然在语义理解上很强,但在处理机器人操作时存在一个致命伤:缺乏对物理演化的直觉

  • Prior Work 的缺陷:现有的价值模型多是判别式的,它们把每一帧看作独立的切片。就像一个只看过照片的人,很难理解把零件拼歪 1 厘米会对 10 秒后的成败产生多大影响。
  • 研究动机:作者认为,价值估算本质上是一个预测未来的问题。如果模型能预测未来场景如何演化,它自然就能更好地判断当前状态是否处于通往成功的正轨上。

方法论详解:将价值注入潜空间

ViVa 并没有盲目堆叠参数,而是巧妙地将预训练的视频生成器(Wan2.2)改造为一个多模态预测器。

1. 潜空间注入 (Latent Injection)

为了不改动预训练模型的结构,ViVa 将非图像数据(机器人关节位置、标量价值)映射为与视频帧相同维度的 Latent Frames

  • Proprioception (本体感知):通过 Repeat-padding 填充。
  • Scalar Value (价值):通过 Broadcast 广播到整个潜帧。

2. 联合预测机制

ViVa 的核心直觉在于:价值估计必须与具身动力学(Embodiment Dynamics)耦合。模型输入的序列包含: [当前观测图像 + 当前本体感知状态 + 未来本体感知的噪声占位符 + 价值的噪声占位符]

通过 Diffusion Transformer 进行去噪,模型被迫在预测价值的同时,必须思考机械臂在未来 K 步会移动到哪里。

模型架构图

实验与结果:敏锐的故障检测器

在复杂的实物实验中,ViVa 表现出了惊人的“预警”能力。

SOTA 对比:

在纸箱组装(Box Assembly)这一高难度、长路径任务中,ViVa 配合 RECAP 算法,显著优于纯模仿学习方案和基于 VLM 的优化方案。

| 方法 | 成功率 (%) | 吞吐量 (次/小时) | | :--- | :--- | :--- | | Gigabrain-0 (Base) | 53 | 10 | | RECAP (VLM Value) | 58 | 11 | | RECAP (ViVa) | 73 | 14 |

关键洞察:为什么要预测未来轨迹?

下方的实验图表揭示了 ViVa 的优越性。当机器人出现“对齐偏差”或“由于重心不稳导致倾斜”时,ViVa 的价值曲线会迅速出现尖锐的下降(蓝色阴影区),而 VLM 方案则对此几乎无感,依旧盲目乐观。

实验结果对比

零样本泛化 (Zero-shot)

最令人兴奋的是,ViVa 在处理从未见过的物体(如折叠裤子,而训练集只有衬衫)时,依然能准确识别出“提起”、“折叠裤腿”、“对齐”等关键里程碑动作,这得益于视频模型中蕴含的通用物理先验。

深度洞察与总结

Takeaway: ViVa 的成功再一次证明了,对于具身智能而言,生成式预训练(Generative Pretraining)提供的是一种更深层的物理世界规律总结。将价值函数从一个简单的分类器提升为一个“想象力引擎”,是解决复杂机器人交互任务的关键。

局限性:

  • 单步推理延迟(0.18s)虽优于传统 VLM,但对于极高频的实时闭环控制仍有提升空间。
  • 依赖高质量的成功/失败演示数据进行价值标定。

未来展望: 未来的机器人可能会拥有更强大的“世界模型”,不仅仅是预测下一步的图像,而是能够根据当前的价值引导,在潜空间中反复试错,从而在真正动手之前就筛选出最优的操作路径。

Find Similar Papers

Try Our Examples

  • 查找最近除 ViVa 之外,还有哪些研究尝试利用视频扩散模型(Video Diffusion Models)作为世界模型或奖励函数来优化机器人策略?
  • 追溯 RECAP 框架的原始论文,并分析 ViVa 提出的“价值与动力学联合预测”是如何改进 RECAP 中 Advantage 估算的准确性的?
  • 探讨将 ViVa 模型中的视频生成先验扩展到多模态操作任务(如结合音频触觉反馈)的可行性研究有哪些?
Contents
[Phys 2026] ViVa:赋予机器人“远见”,用视频生成模型重塑强化学习价值函数
1. TL;DR
2. 痛点深挖:判别式 VLM 的“静态局限”
3. 方法论详解:将价值注入潜空间
3.1. 1. 潜空间注入 (Latent Injection)
3.2. 2. 联合预测机制
4. 实验与结果:敏锐的故障检测器
4.1. SOTA 对比:
4.2. 关键洞察:为什么要预测未来轨迹?
4.3. 零样本泛化 (Zero-shot)
5. 深度洞察与总结