本文提出了 OneWM-VLA,一种增强型视觉-语言-动作(VLA)模型,通过将每帧视觉带宽压缩至单一语义 Token 并结合联合流匹配(Joint Flow Matching)目标,显著提升了机器人长执行周期任务的成功率。在 π0 骨干网络上,该方法在 MetaWorld MT50 和真实机器人折叠布料任务中均取得了超越 SOTA 的表现。
TL;DR
在具身智能(Embodied AI)领域,为 VLA 模型配备预测未来的“世界模型”已成为共识。然而,预测高分辨率的未来视频帧极其昂贵。本文提出的 OneWM-VLA 证明了一个令人惊讶的结论:在处理长时程任务时,每帧视频仅需压缩为一个语义 Token,配合联合流匹配目标,就能让机器人的成功率实现翻倍增长。 该模型在 MetaWorld、LIBERO 以及真实机器人臂的操作中均打破了之前的性能瓶颈。
动机:视觉带宽的过度浪费
现有的世界模型增强型 VLA 模型通常面临一个两难困境:如果要预测像素级的未来图像,计算成本会随着规划时间(Horizon)的延长而爆炸;如果不预测未来,模型就会变得“短视”,在复杂任务中产生误差累积。
作者观察到,机器人控制并不总是需要精细到每一个像素的感官反馈。相反,一个能表达环境状态迁移的高级语义表征(Semantic Latent)可能更有价值。由此,作者提出了一个核心挑战:在受限的资源下,最少的视觉信息(带宽)到底是多少?
核心方法:Adaptive Attention Pooling 与联合流匹配
1. 极致的瓶颈:Adaptive Attention Pooling
为了实现“每帧一个 Token”的目标,作者引入了一个轻量级的自适应注意力池化模块。它包含两个阶段:
- 多策略 Token 池化:从原本的 256 个视觉 Token 中,利用 MAX(峰值通道响应)、SUM(总和响应)和 LEARN(任务相关学习策略)三种维度进行筛选。
- 自适应视图融合:将上述三种策略生成的特征通过可学习的权重 β 融合成唯一的、代表该视角该帧的语义 Token。
图 1:OneWM-VLA 框架流程,展示了从多视角输入到极简 Token 压缩再到联合生成的全过程。
2. 紧密的耦合:Joint Flow Matching
不同于前人通过独立解码器预测未来的做法,OneWM-VLA 在同一个 Transformer 结构中通过联合流匹配(Joint Flow Matching)同时生成未来的潜在 Token 和动作序列。 这种设计的妙处在于:预测的环境演变(Latents)直接作为动作生成的结构化先验,通过 Self-attention 在推理过程中实时修正动作轨迹。
实验战绩:低带宽,高性能
模拟器与真实世界的双重突破
在含有 50 个复杂任务的 MetaWorld MT50 中,当规划长度 H=30 时,OneWM-VLA 的优势最为明显,尤其是在 Hard 和 Very Hard 级别的任务中,表现远超其骨干网络 π0 和更大的模型 π0.5。
在真实世界实验中,针对具有挑战性的长时程柔性物体任务——折叠布料(Fold Cloth),OneWM-VLA 达到了 60% 的成功率,而原生的 π0 仅有 20%。
表 1:MetaWorld MT50 不同时程下的成功率对比,可见 OneWM-VLA 在长时程任务中的领先优势随 H 增长而扩大。
惊人的发现:Token 越少,效果越好?
作者进行了一项极其有意义的消融实验(见表 4):将每视角 Token 数从 1 个增加到 12 个时,成功率反而在下降(从 53.13% 降至 20.54%)。 深度洞察: 在特定的训练预算和模型规模下,更小的潜在空间起到了一种隐式正则化的作用,能过滤掉无关的视觉噪声,让模型更专注于与控制相关的动力学本质。
总结与未来展望
OneWM-VLA 的成功为 VLA 社区提供了一个极具参考价值的视角:提升机器人的智能未必需要增加视觉输入的精细度,而可能在于更高效地压缩和耦合。
局限性:虽然该方法在受限预算下表现惊人,但在面对感知复杂度极高的场景(如识别极细小的物体特征)时,单一 Token 的信息瓶颈是否会成为上限仍需进一步验证。未来,结合轻量级的 Token 记忆机制(Token-memory mechanisms)或将是通向更长执行周期、更稳定控制的必经之路。
关键词: VLA, World Models, Flow Matching, Robot Learning, Adaptive Attention Pooling.
