OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation

OA-WAM：通过对象寻址机制突破机器人操控的鲁棒性瓶颈

总结

问题

方法

结果

要点

摘要

本文提出了 OA-WAM，一种基于对象寻址机制（Object-Addressable）的世界动作模型。通过将场景分解为结构化的 Slot 状态并在 Transformer 架构层面解耦对象身份与时变内容，OA-WAM 在 LIBERO 和 SimplerEnv 等机器人操控基准测试中刷新了 SOTA 纪录。

TL;DR

清华大学、上海交大等机构的研究团队推出了 OA-WAM (Object-Addressable World Action Model)。该工作指出，当前机器人策略在面对相机视角变换、背景替换等轻微扰动时极易崩溃，核心原因在于模型将物体身份与环境上下文“纠缠”在一起。OA-WAM 通过在 Transformer 架构内部引入硬性的对象寻址约束，实现了物体定位与状态建模的张量级解耦，在多个基准测试中刷新了 SOTA。

痛点深挖：为什么 VLA 模型在“搬家”后就失效了？

当前的 Vision-Language-Action (VLA) 模型（如 OpenVLA, π0）虽然在标准任务上表现惊人，但在面对场景扰动（Scene Perturbations）时异常脆弱。

研究者发现，当相机位置稍作移动或多出几个无关的干扰物体时，基于 Patch 的整体化表示（Holistic Representation）会将目标物体的特征与周围环境混合。这就导致动作解码器在处理“把红杯子放到托盘”指令时，无法在变换后的特征空间里稳定地“索引”到那个红杯子。

核心方法：OA-WAM 的“身份-内容”解耦术

OA-WAM 的核心逻辑是将场景视为一组可寻址的 Slot（槽位）。

1. 结构化 Token 设计

每一帧被分解为 $N + 1$ 个 Slot token。每个 token 由两部分组成：

Identity Address (addr)：由语言指令和初始特征计算，在整个回合中保持冻结。它代表“这是哪个物体”。
Content (cnt)：随时间变化的特征，记录物体的位姿和外观。它代表“这个物体目前怎么样”。

模型架构图

2. OA (Object-Addressable) 注意力约束

这是论文最精妙的设计。为了防止 Transformer 在加深过程中将两类特征重新混淆，作者实施了两个操作：

只读地址的 Key 投影：在计算注意力时，Key 向量仅由 addr 部分投影生成。这意味着模型在“寻找”物体时，只能依据物体的身份地址进行路由，不受其当前位置或背景影响。
残差流重置（Reset Hook）：在每一层 Transformer 结束后，强制将残差流中的地址部分重置为初始值，彻底切断梯度对身份信息的改写。

实验战绩：硬核鲁棒性

在针对鲁棒性的 LIBERO-Plus 测试中，OA-WAM 表现出了极强的几何稳定性：

相机视角变换 (Camera)：成功率 80.5%，比之前最强的 Cosmos-Policy 提升了 4.7%。
机器人初态偏移 (Robot init)：达到 89.6%。
几何平均 (Geo Avg)：领先 π0.5 近 5 个百分点。

实验结果对比

最有力的证据来自因果插值实验 (Causal Slot Intervention)。当研究者手动交换两个 Slot 的地址向量时，OA-WAM 的动作方向会立即随之偏向被交换的目标，绑定余弦相似度高达 0.87。而传统的整体式模型在面对这种干预时几乎没有反应（< 0.1），说明它们根本没有建立起稳固的物体寻址逻辑。

深度洞察与总结

OA-WAM 的成功证明了一个深刻的直觉：物理世界的动作应当锚定在对象之上，而非像素之上。 通过在模型架构设计中显式地隔离“对象身份”子空间，我们能够为机器人提供一个即便在动态变幻的环境中也依然稳定的“操作接口”。

局限性： 目前的 OA-WAM 仍依赖于 SAM 3 和 DINOv3 等预训练感知模块，这带来了约 100ms 的推理延迟。虽然对于 4.3Hz 的闭环控制已经足够，但在处理高速运动或极端遮挡时，感知层依然是系统的“软肋”。此外，针对感光噪声（Sensor Noise）的性能下滑也提示我们，前端感知的鲁棒性与后端策略的鲁棒性同样重要。

未来，这种“可寻址”的概念可以进一步扩展到多模态学习中，让机器人不仅能“听懂”指令，更能“死死盯住”任务背后的物理实体。

发现相似论文

试试这些示例

查找最近其他利用对象中心化表示（Object-centric representation）来提升 VLA 模型泛化性能的论文。
哪篇论文最早在 Transformer 中提出了将 Key 向量的不同子空间用于不同路由逻辑的概念，本文的 addr-only 投影与之有何联系？
除了 SAM 3 和 DINOv3，目前有哪些最新的端到端可导的对象分解方法可以集成到 OA-WAM 架构中以减少感知延迟？

OA-WAM：通过对象寻址机制突破机器人操控的鲁棒性瓶颈

1. TL;DR

2. 痛点深挖：为什么 VLA 模型在“搬家”后就失效了？

3. 核心方法：OA-WAM 的“身份-内容”解耦术

3.1. 1. 结构化 Token 设计

3.2. 2. OA (Object-Addressable) 注意力约束

4. 实验战绩：硬核鲁棒性

5. 深度洞察与总结