Do World Action Models Generalize Better than VLAs? A Robustness Study

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Do World Action Models Generalize Better than VLAs? A Robustness Study

[Tech Review] WAM vs. VLA：世界模型是否比视觉语言模型更能理解机器人动作？

Summary

Problem

Method

Results

Takeaways

Abstract

本文对世界动作模型 (WAMs) 与传统视觉-语言-动作模型 (VLAs) 的鲁棒性进行了系统性对比研究。通过在 LIBERO-Plus 和 RoboTwin 2.0-Plus 两个基准测试上的实验证明，以 LingBot-VA 和 Cosmos-Policy 为代表的 WAMs 在面对光照、噪声和布局扰动时表现出远超 VLAs 的泛化能力。

TL;DR

在机器人控制领域，到底是让模型“读懂文字并看图说话”（VLA）更重要，还是让模型“预知未来并感知物理”（World Model）更重要？华为与多伦多大学的最新研究通过 RoboTwin 2.0-Plus 压力测试给出答案：世界动作模型 (WAMs) 在应对现实世界复杂干扰（光照、噪声、杂乱布局）时，凭借视频预训练带来的时空先验，展现出了远超传统 VLA 的鲁棒性。

1. 痛点：VLA 的“物理文盲”困境

目前的视觉-语言-动作模型（VLA）虽然在语义理解上表现出色，但其骨干网络多为在静态图文对上训练的 VLM。它们对物理世界的动力学（Dynamics）缺乏直观认知：

泛化瓶颈：一旦测试环境光照稍微变暗，或背景多了一个水杯，模型往往会因“由于没见过这种分布”而产生幻觉动作。
数据饥渴：为了获得鲁棒性，VLA 通常需要通过 Cross-embodiment 学习数万小时的多样化机器人数据。

相比之下，世界动作模型 (WAMs) 直接站在了“视频生成”这一巨人的肩膀上。模型特性对比表

2. 核心机制：WAM 如何实现“预知未来”？

WAM 的核心逻辑是将机器人动作生成视为一种“受控的视频生成”问题。其工作流程通常分为两类：

联合去噪 (Joint Denoising)：模型同时在潜在空间中对未来视频帧和机器人动作进行去噪（如 Cosmos-Policy）。
逆动力学解码 (IDM Decoding)：先利用预测模型输出未来状态 $h_{t + 1}$ ，再配合当前状态 $h_{t}$ 通过一个小型的解码头得到动作 $a_{t}$ （如 LingBot-VA）。

这种设计的本质优势在于：视频预训练已经教会了模型什么是重力、什么是刚体碰撞、什么是物体的连贯运动。 即使输入图像有噪声，世界模型也能在内部潜空间里“脑补”出清晰的动作路径。

RoboTwin 2.0-Plus 扰动环境示意

3. 实验对决：WAM vs. VLA 的巅峰博弈

研究团队在 LIBERO-Plus（单臂）和 RoboTwin 2.0-Plus（双臂 Aloha 环境）上进行了大规模基准测试，涵盖了相机位姿、光照、背景纹理、语言指令等 7 大类扰动。

关键发现 1：WAM 在视觉极端环境下几乎“免疫”

实验显示，在噪声（Noise）和杂乱布局（Layout）下，WAM 模型（如 LingBot-VA）的性能跌落远小于 π0.5。尤其是在“敲击方块”等任务中，当环境中出现大量干扰物体时，VLA 容易与障碍物碰撞，而 WAM 能准确识别物理占位并保持动作轨迹。

关键发现 2：VLA 靠“刷题”补救，WAM 靠“天赋”胜出

π0.5 表现很强，但作者指出这归功于其训练数据中混入了海量的移动操纵和 Web 端多样化视频。
WAM 则表现出更高的“数据效率”。在只用领域内少量数据训练的情况下，它在视觉扰动下的鲁棒性依然稳健。

实验结果数据对比

4. 深度洞察：代价是什么？

尽管 WAMs 展现了强悍的泛化能力，但其落地仍面临一大难关：推理延迟 (Inference Overhead)。

由于核心是扩散模型 (Diffusion) 或流匹配 (Flow Matching)，每一次动作生成都需要多次迭代去噪。
数据对比：π0.5 单步推理仅需 63ms，而 LingBot-VA 在某些环境下甚至需要 5 秒以上。这对于需要 50Hz 实时响应的精细操作任务来说，几乎是不可接受的。

5. 总结与展望

这篇文章为机器人社区提供了一个非常清晰的信号：显式的时空建模（World Modeling）不仅仅是用来做模拟器的，它直接提升了 Policy 的天花板。

未来的三个趋势：

混合架构：如 MOTUS 和 VLA-JEPA，尝试将视频预训练的辅助任务引入 VLA，以寻求平衡。
端到端加速：研究如何将 WAM 的去噪步数压缩到 1-3 步（One-step World Models）。
从语义到物理：机器人模型将从单纯的语言对齐转向更底层的物理规律对齐。

对研究者而言，如果你追求极致的稳定性，WAM 是目前最有潜力的方向；如果你需要立刻部署，通过大规模多样化数据增强的 VLA（如 π0.5）依然是当前的最优选。

Find Similar Papers

Try Our Examples

查找其他最近试图利用视频预训练模型（如 Sora 或 Gen-3 类架构）提升机器人操作泛化性的论文。
哪篇论文最早定义了“世界动作模型 (World Action Models)”与 VLA 的本质区别，本文在实验体系上做了哪些扩展？
针对视频扩散模型推理速度慢的问题，目前有哪些最先进的高效采样或蒸馏技术可以应用到 WAMs 的实时控制中？

Contents

[Tech Review] WAM vs. VLA：世界模型是否比视觉语言模型更能理解机器人动作？

1. TL;DR

2. 1. 痛点：VLA 的“物理文盲”困境

3. 2. 核心机制：WAM 如何实现“预知未来”？

4. 3. 实验对决：WAM vs. VLA 的巅峰博弈

4.1. 关键发现 1：WAM 在视觉极端环境下几乎“免疫”

4.2. 关键发现 2：VLA 靠“刷题”补救，WAM 靠“天赋”胜出

5. 4. 深度洞察：代价是什么？

6. 5. 总结与展望