RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

[ICLR 2025] RMBench & Mem-0：赋予机器人“回头看”的能力，突破非马尔可夫操作瓶颈

总结

问题

方法

结果

要点

摘要

本文提出了 RMBench，一个专门用于评估机器人操作中记忆能力的仿真基准测试，并引入了“任务记忆复杂度 (TMC)”度量标准。同时提出 Mem-0 策略，通过双系统架构结合固定锚点记忆、滑动窗口记忆和关键帧记忆，在多项长周期非马尔可夫任务中达到 SOTA。

TL;DR

在机器人操作领域，大部分 SOTA 模型（如 Diffusion Policy 或各种 VLA）都默认环境是满足马尔可夫性质的——即“只要看一眼现在的图像，就能知道下一步该怎么做”。然而，面对“把方块放回它刚才的位置”这种需要记忆历史的任务，这些模型往往会集体“断片”。本文推出的 RMBench 填补了机器人记忆评估的空白，而配套的 Mem-0 策略通过巧妙的三重记忆机制，在多步推理任务中大幅超越了 ACT 和 Pi0.5。

1. 痛点：为什么 LLM 会推理，机器人却像“金鱼”？

当前的具身智能模型在精细操作上已经很强，但它们的智力往往局限在极其短暂的观察窗口内。

局限性：现有基准（如 LIBERO-Long）虽然任务长，但关键信息始终在视野里，不需要记忆。
直觉断层：人类在操作时会记得“我刚才已经按过一次按钮了”或者“方块最初是在左边的”，但机器人模型如果只看当前帧，它无法分辨现在是“准备开始”还是“已经完成”。
TMC 定义：作者提出了任务记忆复杂度 (Task Memory Complexity, TMC)。如果一个任务需要 $m$ 个历史关键观测才能做出最优决策，那它的复杂度就是 $M (m)$ 。

2. Mem-0 架构：三重记忆的交响乐

Mem-0 的核心在于它不强求模型从冗长的视频流中硬拉信息，而是通过模块化记忆进行分层处理。

Mem-0 模型架构图

2.1 规划模块 (Planning Module) —— 关键帧记忆 (Key Memory)

规划层不负责具体的挥手臂，而是负责逻辑。它记录每一个已完成子任务的关键帧 (Key Frame)。

Why? 比如“按左边按钮 $N$ 次”的任务，模型需要看一眼之前“按完”的那些快照，才能算出还要按几次。

2.2 执行模块 (Execution Module) —— 锚点与滑动记忆

在具体的子任务执行中，Mem-0 使用了双路注意力：

锚点记忆 (Anchor Memory)：保留子任务开始瞬间的图像。这对于“回到原位”这种任务至关重要，它提供了衡量的基准。
滑动窗口 (Sliding Window)：保留最近几帧的特征，捕捉平滑的运动趋势。

2.3 闭环纽带：子任务结束分类器

通过一个分类器判定当前动作是否达成了语言描述的目标。只有分类器发出“OK”信号，规划模块才会推理下一个子任务，避免了传统大模型频繁调用带来的推理高延迟。

3. 实验结果：全方位的领先

作者在 RMBench 的 9 个任务上进行了严苛测试，这些任务包括“查看并抓取”、“方块排序”、“电池尝试”等。

实验结果对比表

性能飞跃：在 $M (1)$ 任务中，Mem-0 成功率达到 52.8%，而强力的 X-VLA 仅为 11.8%。
消融实验启示：去掉锚点记忆后，模型在“放回原位”这类任务上的表现暴跌。这证明了：对于非马尔可夫任务，保留一个“初始快照”比保留一堆“近期快照”有用得多。

4. 深度洞察：记忆的代价与局限

尽管 Mem-0 很强大，但研究也暴露了当前 AI 记忆策略的几个软肋：

分类器的鲁棒性：分类器如果误判“任务已完成”，整个长链路就会崩溃。特别是在“按按钮”这种视觉变化极小的任务中，纯视觉很难判断是否按到位。
语义理解瓶颈：在需要极强语义辨析的任务（如从堆物体中识别唯一目标）上，预训练的大型 VLA (如 Pi0.5) 依然有底蕴优势。
真实世界的挑战：在真实机器人 (X-One) 实验中，Mem-0 虽然领先，但 22.5% 的平均成功率说明：当记忆推理遇到真实的物理接触误差时，容错度依然很低。

结论

RMBench 划定了具身智能从“感官映射”向“逻辑记忆”跨越的赛道。Mem-0 的成功告诉我们，与其盲目增加 Transformer 的上下文长度，不如显式地设计锚点和状态切换逻辑。未来的机器人将不再是只看眼前的“低头族”，而是时刻记得“从哪来，到哪去”的智能体。

发现相似论文

试试这些示例

查找其他最近试图解决机器人操作中非马尔可夫 (Non-Markovian) 决策问题的基准测试或论文。
哪篇论文最早在具身智能中提出了“锚点记忆 (Anchor Memory)”的概念，Mem-0 与其在架构上有何异同？
有哪些研究探讨了将触觉反馈 (Tactile Feedback) 与视觉记忆结合，以提升机器人子任务切换分类器的准确性？

[ICLR 2025] RMBench & Mem-0：赋予机器人“回头看”的能力，突破非马尔可夫操作瓶颈

1. TL;DR

2. 1. 痛点：为什么 LLM 会推理，机器人却像“金鱼”？

3. 2. Mem-0 架构：三重记忆的交响乐

3.1. 2.1 规划模块 (Planning Module) —— 关键帧记忆 (Key Memory)

3.2. 2.2 执行模块 (Execution Module) —— 锚点与滑动记忆

3.3. 2.3 闭环纽带：子任务结束分类器

4. 3. 实验结果：全方位的领先

5. 4. 深度洞察：记忆的代价与局限

6. 结论