WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICLR 2025] RMBench & Mem-0:赋予机器人“回头看”的能力,突破非马尔可夫操作瓶颈
总结
问题
方法
结果
要点
摘要

本文提出了 RMBench,一个专门用于评估机器人操作中记忆能力的仿真基准测试,并引入了“任务记忆复杂度 (TMC)”度量标准。同时提出 Mem-0 策略,通过双系统架构结合固定锚点记忆、滑动窗口记忆和关键帧记忆,在多项长周期非马尔可夫任务中达到 SOTA。

TL;DR

在机器人操作领域,大部分 SOTA 模型(如 Diffusion Policy 或各种 VLA)都默认环境是满足马尔可夫性质的——即“只要看一眼现在的图像,就能知道下一步该怎么做”。然而,面对“把方块放回它刚才的位置”这种需要记忆历史的任务,这些模型往往会集体“断片”。本文推出的 RMBench 填补了机器人记忆评估的空白,而配套的 Mem-0 策略通过巧妙的三重记忆机制,在多步推理任务中大幅超越了 ACT 和 Pi0.5。

1. 痛点:为什么 LLM 会推理,机器人却像“金鱼”?

当前的具身智能模型在精细操作上已经很强,但它们的智力往往局限在极其短暂的观察窗口内。

  • 局限性:现有基准(如 LIBERO-Long)虽然任务长,但关键信息始终在视野里,不需要记忆。
  • 直觉断层:人类在操作时会记得“我刚才已经按过一次按钮了”或者“方块最初是在左边的”,但机器人模型如果只看当前帧,它无法分辨现在是“准备开始”还是“已经完成”。
  • TMC 定义:作者提出了任务记忆复杂度 (Task Memory Complexity, TMC)。如果一个任务需要 个历史关键观测才能做出最优决策,那它的复杂度就是

2. Mem-0 架构:三重记忆的交响乐

Mem-0 的核心在于它不强求模型从冗长的视频流中硬拉信息,而是通过模块化记忆进行分层处理。

Mem-0 模型架构图

2.1 规划模块 (Planning Module) —— 关键帧记忆 (Key Memory)

规划层不负责具体的挥手臂,而是负责逻辑。它记录每一个已完成子任务的关键帧 (Key Frame)

  • Why? 比如“按左边按钮 次”的任务,模型需要看一眼之前“按完”的那些快照,才能算出还要按几次。

2.2 执行模块 (Execution Module) —— 锚点与滑动记忆

在具体的子任务执行中,Mem-0 使用了双路注意力:

  • 锚点记忆 (Anchor Memory):保留子任务开始瞬间的图像。这对于“回到原位”这种任务至关重要,它提供了衡量的基准。
  • 滑动窗口 (Sliding Window):保留最近几帧的特征,捕捉平滑的运动趋势。

2.3 闭环纽带:子任务结束分类器

通过一个分类器判定当前动作是否达成了语言描述的目标。只有分类器发出“OK”信号,规划模块才会推理下一个子任务,避免了传统大模型频繁调用带来的推理高延迟。

3. 实验结果:全方位的领先

作者在 RMBench 的 9 个任务上进行了严苛测试,这些任务包括“查看并抓取”、“方块排序”、“电池尝试”等。

实验结果对比表

  • 性能飞跃:在 任务中,Mem-0 成功率达到 52.8%,而强力的 X-VLA 仅为 11.8%。
  • 消融实验启示:去掉锚点记忆后,模型在“放回原位”这类任务上的表现暴跌。这证明了:对于非马尔可夫任务,保留一个“初始快照”比保留一堆“近期快照”有用得多。

4. 深度洞察:记忆的代价与局限

尽管 Mem-0 很强大,但研究也暴露了当前 AI 记忆策略的几个软肋:

  1. 分类器的鲁棒性:分类器如果误判“任务已完成”,整个长链路就会崩溃。特别是在“按按钮”这种视觉变化极小的任务中,纯视觉很难判断是否按到位。
  2. 语义理解瓶颈:在需要极强语义辨析的任务(如从堆物体中识别唯一目标)上,预训练的大型 VLA (如 Pi0.5) 依然有底蕴优势。
  3. 真实世界的挑战:在真实机器人 (X-One) 实验中,Mem-0 虽然领先,但 22.5% 的平均成功率说明:当记忆推理遇到真实的物理接触误差时,容错度依然很低。

结论

RMBench 划定了具身智能从“感官映射”向“逻辑记忆”跨越的赛道。Mem-0 的成功告诉我们,与其盲目增加 Transformer 的上下文长度,不如显式地设计锚点状态切换逻辑。未来的机器人将不再是只看眼前的“低头族”,而是时刻记得“从哪来,到哪去”的智能体。

发现相似论文

试试这些示例

  • 查找其他最近试图解决机器人操作中非马尔可夫 (Non-Markovian) 决策问题的基准测试或论文。
  • 哪篇论文最早在具身智能中提出了“锚点记忆 (Anchor Memory)”的概念,Mem-0 与其在架构上有何异同?
  • 有哪些研究探讨了将触觉反馈 (Tactile Feedback) 与视觉记忆结合,以提升机器人子任务切换分类器的准确性?
目录
[ICLR 2025] RMBench & Mem-0:赋予机器人“回头看”的能力,突破非马尔可夫操作瓶颈
1. TL;DR
2. 1. 痛点:为什么 LLM 会推理,机器人却像“金鱼”?
3. 2. Mem-0 架构:三重记忆的交响乐
3.1. 2.1 规划模块 (Planning Module) —— 关键帧记忆 (Key Memory)
3.2. 2.2 执行模块 (Execution Module) —— 锚点与滑动记忆
3.3. 2.3 闭环纽带:子任务结束分类器
4. 3. 实验结果:全方位的领先
5. 4. 深度洞察:记忆的代价与局限
6. 结论