WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2026] RoboMME:打破马尔可夫假设,深度解析机器人通用策略的“记忆宫殿”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 RoboMME,这是一个旨在评估和理解机器人通才策略中记忆能力的统一基准测试。该基准涵盖了 Counting, Permanence, Reference 和 Imitation 四大任务套件,并开发了 14 种基于 主干的 MME-VLA 模型,系统对比了符号、感知及循环记忆的表现。

TL;DR

在机器人具身智能领域,我们长期面临一个悖论:许多标榜“需要记忆”的任务,实际上仅凭当前帧画面就能靠过拟合解决。RoboMME 论文通过引入包含 16 个非马尔可夫任务的基准测试,强制要求机器人必须“记住”过去(如:方块被盖住后的位置、已经数了多少次、示范的轨迹形状),并系统性地对比了语言符号、视觉特征和循环状态三种记忆流派。

核心速览

  • 定位:第一款系统性覆盖时间(When)、空间(Where)、物体(What)和程序(How)四大认知维度的机器人记忆基准。
  • 关键结论:没有万能药。符号记忆长于逻辑,感知记忆胜于动作,两者结合才是通往长程通用机器人的路径。

为什么目前的机器人“记性不好”?

在 Open-world 环境下,机器人经常需要处理类似“把书放回原位”或“按照人刚才演示的方式擦桌子”的任务。现有方法的局限性在于:

  1. 伪需求:很多 Benchmark 环境太简单,机器人不需要记忆,看一眼当前状态就知道下一步。
  2. 不通用:有些方法用 RNN 记,有些用语言记,有些用缓存图像记,大家在不同的 Backbone 上测试,根本无法公平对比。

RoboMME 的四大认知维度

为了彻底测试记忆,作者将任务设计为非马尔可夫过程(Non-Markovian),即相同的当前观察可能对应完全不同的动作需求。

  • Counting (时间):需要累积事件。例如:放入 bin 里的方块数量够了吗?
  • Permanence (空间):在遮挡和旋转下追踪物体。例如:方块被哪个杯子盖住了?
  • Reference (物体):跨时间识别一致性。例如:捡起刚才闪烁过的那个特定方块。
  • Imitation (程序):复现动作模式。例如:像刚才示范的那样画个圈,而不是直线。

RoboMME 任务概览

技术深度揭秘:MME-VLA 家族

作者基于 构建了 14 种模型变体,这是本文最具学术价值的部分,它通过控制变量法拆解了“记忆”的成分。

1. 记忆表示 (How to Represent)

  • Symbolic (符号):将历史总结为自然语言 subgoals(如 "已放置2个绿块")。
  • Perceptual (感知):保留过去的视觉 Token。作者发现 Uniform Frame Sampling (帧采样) 比 Token Dropping 效果更好,因为全局空间上下文对定位至关重要。
  • Recurrent (循环):利用 TTT (Test-Time Training)RMT (Recurrent Memory Transformers) 将历史压缩进固定大小的隐藏状态。

2. 集成机制 (How to Integrate)

  • Memory-as-Modulator (调制器):这是全场 MVP。利用 Adaptive LayerNorm (AdaLN),让 Action Expert 的层特征去 Cross-attend 记忆 Token。这种方式对原始权重干扰最小,性能提升最稳健。
  • Memory-as-Expert (专家):增加专门的记忆分支,通过块因果注意力(Block-wise Causal Attention)与动作分支交互。

模型架构图

实验战报:谁才是最强记忆?

实验结果(表3)打破了“越大越好”的迷思:

  • 感知记忆(FRAMESAMP + Modul) 以 44.51% 的总分夺冠,尤其在 Imitation (程序记忆) 的长程轨迹复现上表现惊人。
  • 符号记忆 (GROUNDSG) 虽然在推理中很强,但在 StopCube 这种对时间极度敏感(Time-sensitive)的任务中几乎抓瞎,因为语言无法精确描述“现在该松手”的那一毫秒。
  • 人机对比:人类在 RoboMME 上也只有 90.5% 的成功率,在极其繁琐的 PatternLock(轨迹锁)任务中也会遗忘,这证明了基准测试极具挑战性。

实验结果对比图

总结与局限性

RoboMME 告诉我们:记忆的本质是任务相关的。 如果你需要逻辑(Count),请给模型配上语言子目标;如果你需要操作(Imitation),请保留高质量的视觉历史。目前该基准还局限于桌面操纵,未来这一框架有望扩展到移动机器人(Mobile Manipulation)更复杂的环境中。

这项工作是迈向可靠、长程、依赖历史的具身通用策略的重要一步。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图在机器人操纵任务中解决 Transformers 长历史处理效率与精度平衡问题的论文。
  • 哪篇论文最早提出了在 VLA 模型中使用辅助语言子目标作为记忆机制的方法,本文是如何在此基础上进行大规模基准对比的?
  • 有哪些研究将类似感知记忆或循环记忆(如 Mamba 或 TTT)的方法应用到了移动机器人导航或多模态具身智能任务中?
Contents
[ICLR 2026] RoboMME:打破马尔可夫假设,深度解析机器人通用策略的“记忆宫殿”
1. TL;DR
2. 核心速览
3. 为什么目前的机器人“记性不好”?
4. RoboMME 的四大认知维度
5. 技术深度揭秘:MME-VLA 家族
5.1. 1. 记忆表示 (How to Represent)
5.2. 2. 集成机制 (How to Integrate)
6. 实验战报:谁才是最强记忆?
7. 总结与局限性