WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
OA-WAM:通过对象寻址机制突破机器人操控的鲁棒性瓶颈
总结
问题
方法
结果
要点
摘要

本文提出了 OA-WAM,一种基于对象寻址机制(Object-Addressable)的世界动作模型。通过将场景分解为结构化的 Slot 状态并在 Transformer 架构层面解耦对象身份与时变内容,OA-WAM 在 LIBERO 和 SimplerEnv 等机器人操控基准测试中刷新了 SOTA 纪录。

TL;DR

清华大学、上海交大等机构的研究团队推出了 OA-WAM (Object-Addressable World Action Model)。该工作指出,当前机器人策略在面对相机视角变换、背景替换等轻微扰动时极易崩溃,核心原因在于模型将物体身份与环境上下文“纠缠”在一起。OA-WAM 通过在 Transformer 架构内部引入硬性的对象寻址约束,实现了物体定位与状态建模的张量级解耦,在多个基准测试中刷新了 SOTA。

痛点深挖:为什么 VLA 模型在“搬家”后就失效了?

当前的 Vision-Language-Action (VLA) 模型(如 OpenVLA, π0)虽然在标准任务上表现惊人,但在面对场景扰动(Scene Perturbations)时异常脆弱。

研究者发现,当相机位置稍作移动或多出几个无关的干扰物体时,基于 Patch 的整体化表示(Holistic Representation)会将目标物体的特征与周围环境混合。这就导致动作解码器在处理“把红杯子放到托盘”指令时,无法在变换后的特征空间里稳定地“索引”到那个红杯子。

核心方法:OA-WAM 的“身份-内容”解耦术

OA-WAM 的核心逻辑是将场景视为一组可寻址的 Slot(槽位)

1. 结构化 Token 设计

每一帧被分解为 个 Slot token。每个 token 由两部分组成:

  • Identity Address (addr):由语言指令和初始特征计算,在整个回合中保持冻结。它代表“这是哪个物体”。
  • Content (cnt):随时间变化的特征,记录物体的位姿和外观。它代表“这个物体目前怎么样”。

模型架构图

2. OA (Object-Addressable) 注意力约束

这是论文最精妙的设计。为了防止 Transformer 在加深过程中将两类特征重新混淆,作者实施了两个操作:

  • 只读地址的 Key 投影:在计算注意力时,Key 向量仅由 addr 部分投影生成。这意味着模型在“寻找”物体时,只能依据物体的身份地址进行路由,不受其当前位置或背景影响。
  • 残差流重置(Reset Hook):在每一层 Transformer 结束后,强制将残差流中的地址部分重置为初始值,彻底切断梯度对身份信息的改写。

实验战绩:硬核鲁棒性

在针对鲁棒性的 LIBERO-Plus 测试中,OA-WAM 表现出了极强的几何稳定性:

  • 相机视角变换 (Camera):成功率 80.5%,比之前最强的 Cosmos-Policy 提升了 4.7%
  • 机器人初态偏移 (Robot init):达到 89.6%。
  • 几何平均 (Geo Avg):领先 π0.5 近 5 个百分点。

实验结果对比

最有力的证据来自因果插值实验 (Causal Slot Intervention)。当研究者手动交换两个 Slot 的地址向量时,OA-WAM 的动作方向会立即随之偏向被交换的目标,绑定余弦相似度高达 0.87。而传统的整体式模型在面对这种干预时几乎没有反应(< 0.1),说明它们根本没有建立起稳固的物体寻址逻辑。

深度洞察与总结

OA-WAM 的成功证明了一个深刻的直觉:物理世界的动作应当锚定在对象之上,而非像素之上。 通过在模型架构设计中显式地隔离“对象身份”子空间,我们能够为机器人提供一个即便在动态变幻的环境中也依然稳定的“操作接口”。

局限性: 目前的 OA-WAM 仍依赖于 SAM 3 和 DINOv3 等预训练感知模块,这带来了约 100ms 的推理延迟。虽然对于 4.3Hz 的闭环控制已经足够,但在处理高速运动或极端遮挡时,感知层依然是系统的“软肋”。此外,针对感光噪声(Sensor Noise)的性能下滑也提示我们,前端感知的鲁棒性与后端策略的鲁棒性同样重要。

未来,这种“可寻址”的概念可以进一步扩展到多模态学习中,让机器人不仅能“听懂”指令,更能“死死盯住”任务背后的物理实体。

发现相似论文

试试这些示例

  • 查找最近其他利用对象中心化表示(Object-centric representation)来提升 VLA 模型泛化性能的论文。
  • 哪篇论文最早在 Transformer 中提出了将 Key 向量的不同子空间用于不同路由逻辑的概念,本文的 addr-only 投影与之有何联系?
  • 除了 SAM 3 和 DINOv3,目前有哪些最新的端到端可导的对象分解方法可以集成到 OA-WAM 架构中以减少感知延迟?
目录
OA-WAM:通过对象寻址机制突破机器人操控的鲁棒性瓶颈
1. TL;DR
2. 痛点深挖:为什么 VLA 模型在“搬家”后就失效了?
3. 核心方法:OA-WAM 的“身份-内容”解耦术
3.1. 1. 结构化 Token 设计
3.2. 2. OA (Object-Addressable) 注意力约束
4. 实验战绩:硬核鲁棒性
5. 深度洞察与总结