本文提出了 RMBench,一个专门用于评估机器人操作中记忆能力的仿真基准测试,并引入了“任务记忆复杂度 (TMC)”度量标准。同时提出 Mem-0 策略,通过双系统架构结合固定锚点记忆、滑动窗口记忆和关键帧记忆,在多项长周期非马尔可夫任务中达到 SOTA。
TL;DR
在机器人操作领域,大部分 SOTA 模型(如 Diffusion Policy 或各种 VLA)都默认环境是满足马尔可夫性质的——即“只要看一眼现在的图像,就能知道下一步该怎么做”。然而,面对“把方块放回它刚才的位置”这种需要记忆历史的任务,这些模型往往会集体“断片”。本文推出的 RMBench 填补了机器人记忆评估的空白,而配套的 Mem-0 策略通过巧妙的三重记忆机制,在多步推理任务中大幅超越了 ACT 和 Pi0.5。
1. 痛点:为什么 LLM 会推理,机器人却像“金鱼”?
当前的具身智能模型在精细操作上已经很强,但它们的智力往往局限在极其短暂的观察窗口内。
- 局限性:现有基准(如 LIBERO-Long)虽然任务长,但关键信息始终在视野里,不需要记忆。
- 直觉断层:人类在操作时会记得“我刚才已经按过一次按钮了”或者“方块最初是在左边的”,但机器人模型如果只看当前帧,它无法分辨现在是“准备开始”还是“已经完成”。
- TMC 定义:作者提出了任务记忆复杂度 (Task Memory Complexity, TMC)。如果一个任务需要 个历史关键观测才能做出最优决策,那它的复杂度就是 。
2. Mem-0 架构:三重记忆的交响乐
Mem-0 的核心在于它不强求模型从冗长的视频流中硬拉信息,而是通过模块化记忆进行分层处理。

2.1 规划模块 (Planning Module) —— 关键帧记忆 (Key Memory)
规划层不负责具体的挥手臂,而是负责逻辑。它记录每一个已完成子任务的关键帧 (Key Frame)。
- Why? 比如“按左边按钮 次”的任务,模型需要看一眼之前“按完”的那些快照,才能算出还要按几次。
2.2 执行模块 (Execution Module) —— 锚点与滑动记忆
在具体的子任务执行中,Mem-0 使用了双路注意力:
- 锚点记忆 (Anchor Memory):保留子任务开始瞬间的图像。这对于“回到原位”这种任务至关重要,它提供了衡量的基准。
- 滑动窗口 (Sliding Window):保留最近几帧的特征,捕捉平滑的运动趋势。
2.3 闭环纽带:子任务结束分类器
通过一个分类器判定当前动作是否达成了语言描述的目标。只有分类器发出“OK”信号,规划模块才会推理下一个子任务,避免了传统大模型频繁调用带来的推理高延迟。
3. 实验结果:全方位的领先
作者在 RMBench 的 9 个任务上进行了严苛测试,这些任务包括“查看并抓取”、“方块排序”、“电池尝试”等。

- 性能飞跃:在 任务中,Mem-0 成功率达到 52.8%,而强力的 X-VLA 仅为 11.8%。
- 消融实验启示:去掉锚点记忆后,模型在“放回原位”这类任务上的表现暴跌。这证明了:对于非马尔可夫任务,保留一个“初始快照”比保留一堆“近期快照”有用得多。
4. 深度洞察:记忆的代价与局限
尽管 Mem-0 很强大,但研究也暴露了当前 AI 记忆策略的几个软肋:
- 分类器的鲁棒性:分类器如果误判“任务已完成”,整个长链路就会崩溃。特别是在“按按钮”这种视觉变化极小的任务中,纯视觉很难判断是否按到位。
- 语义理解瓶颈:在需要极强语义辨析的任务(如从堆物体中识别唯一目标)上,预训练的大型 VLA (如 Pi0.5) 依然有底蕴优势。
- 真实世界的挑战:在真实机器人 (X-One) 实验中,Mem-0 虽然领先,但 22.5% 的平均成功率说明:当记忆推理遇到真实的物理接触误差时,容错度依然很低。
结论
RMBench 划定了具身智能从“感官映射”向“逻辑记忆”跨越的赛道。Mem-0 的成功告诉我们,与其盲目增加 Transformer 的上下文长度,不如显式地设计锚点和状态切换逻辑。未来的机器人将不再是只看眼前的“低头族”,而是时刻记得“从哪来,到哪去”的智能体。
