WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
每个视频帧只需一个 Token:OneWM-VLA 重新定义世界模型的视觉带宽
总结
问题
方法
结果
要点
摘要

本文提出了 OneWM-VLA,一种增强型视觉-语言-动作(VLA)模型,通过将每帧视觉带宽压缩至单一语义 Token 并结合联合流匹配(Joint Flow Matching)目标,显著提升了机器人长执行周期任务的成功率。在 π0 骨干网络上,该方法在 MetaWorld MT50 和真实机器人折叠布料任务中均取得了超越 SOTA 的表现。

TL;DR

在具身智能(Embodied AI)领域,为 VLA 模型配备预测未来的“世界模型”已成为共识。然而,预测高分辨率的未来视频帧极其昂贵。本文提出的 OneWM-VLA 证明了一个令人惊讶的结论:在处理长时程任务时,每帧视频仅需压缩为一个语义 Token,配合联合流匹配目标,就能让机器人的成功率实现翻倍增长。 该模型在 MetaWorld、LIBERO 以及真实机器人臂的操作中均打破了之前的性能瓶颈。

动机:视觉带宽的过度浪费

现有的世界模型增强型 VLA 模型通常面临一个两难困境:如果要预测像素级的未来图像,计算成本会随着规划时间(Horizon)的延长而爆炸;如果不预测未来,模型就会变得“短视”,在复杂任务中产生误差累积。

作者观察到,机器人控制并不总是需要精细到每一个像素的感官反馈。相反,一个能表达环境状态迁移的高级语义表征(Semantic Latent)可能更有价值。由此,作者提出了一个核心挑战:在受限的资源下,最少的视觉信息(带宽)到底是多少?

核心方法:Adaptive Attention Pooling 与联合流匹配

1. 极致的瓶颈:Adaptive Attention Pooling

为了实现“每帧一个 Token”的目标,作者引入了一个轻量级的自适应注意力池化模块。它包含两个阶段:

  • 多策略 Token 池化:从原本的 256 个视觉 Token 中,利用 MAX(峰值通道响应)、SUM(总和响应)和 LEARN(任务相关学习策略)三种维度进行筛选。
  • 自适应视图融合:将上述三种策略生成的特征通过可学习的权重 β 融合成唯一的、代表该视角该帧的语义 Token。

模型架构图 图 1:OneWM-VLA 框架流程,展示了从多视角输入到极简 Token 压缩再到联合生成的全过程。

2. 紧密的耦合:Joint Flow Matching

不同于前人通过独立解码器预测未来的做法,OneWM-VLA 在同一个 Transformer 结构中通过联合流匹配(Joint Flow Matching)同时生成未来的潜在 Token 和动作序列。 这种设计的妙处在于:预测的环境演变(Latents)直接作为动作生成的结构化先验,通过 Self-attention 在推理过程中实时修正动作轨迹。

实验战绩:低带宽,高性能

模拟器与真实世界的双重突破

在含有 50 个复杂任务的 MetaWorld MT50 中,当规划长度 H=30 时,OneWM-VLA 的优势最为明显,尤其是在 Hard 和 Very Hard 级别的任务中,表现远超其骨干网络 π0 和更大的模型 π0.5。

在真实世界实验中,针对具有挑战性的长时程柔性物体任务——折叠布料(Fold Cloth),OneWM-VLA 达到了 60% 的成功率,而原生的 π0 仅有 20%。

实验结果对比 表 1:MetaWorld MT50 不同时程下的成功率对比,可见 OneWM-VLA 在长时程任务中的领先优势随 H 增长而扩大。

惊人的发现:Token 越少,效果越好?

作者进行了一项极其有意义的消融实验(见表 4):将每视角 Token 数从 1 个增加到 12 个时,成功率反而在下降(从 53.13% 降至 20.54%)。 深度洞察: 在特定的训练预算和模型规模下,更小的潜在空间起到了一种隐式正则化的作用,能过滤掉无关的视觉噪声,让模型更专注于与控制相关的动力学本质。

总结与未来展望

OneWM-VLA 的成功为 VLA 社区提供了一个极具参考价值的视角:提升机器人的智能未必需要增加视觉输入的精细度,而可能在于更高效地压缩和耦合。

局限性:虽然该方法在受限预算下表现惊人,但在面对感知复杂度极高的场景(如识别极细小的物体特征)时,单一 Token 的信息瓶颈是否会成为上限仍需进一步验证。未来,结合轻量级的 Token 记忆机制(Token-memory mechanisms)或将是通向更长执行周期、更稳定控制的必经之路。


关键词: VLA, World Models, Flow Matching, Robot Learning, Adaptive Attention Pooling.

发现相似论文

试试这些示例

  • 查找其他最近试图解决 Transformer 中 Attention 复杂度随规划时程增长而导致显持溢出的视觉机器人策略论文。
  • 哪篇论文最早提出了 Flow Matching 在离散机器人动作空间中的应用,OneWM-VLA 的联合生成目标与其有何本质区别?
  • 有哪些研究探讨了将类似 Adaptive Attention Pooling 的自适应特征压缩技术应用于需要精细操作的多模态大模型任务中?
目录
每个视频帧只需一个 Token:OneWM-VLA 重新定义世界模型的视觉带宽
1. TL;DR
2. 动机:视觉带宽的过度浪费
3. 核心方法:Adaptive Attention Pooling 与联合流匹配
3.1. 1. 极致的瓶颈:Adaptive Attention Pooling
3.2. 2. 紧密的耦合:Joint Flow Matching
4. 实验战绩:低带宽,高性能
4.1. 模拟器与真实世界的双重突破
4.2. 惊人的发现:Token 越少,效果越好?
5. 总结与未来展望