WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] MolmoBot:彻底终结“真机数据焦虑”?大规模仿真赋能零样本操纵
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MolmoBot,一种通过大规模仿真数据实现零样本(Zero-shot)真机迁移的机器人操纵系统。核心贡献包括开源的数据生成引擎 MolmoBot-Engine、包含 180 万条专家轨迹的 MolmoBot-Data,以及基于 Molmo2 视频语言模型构建的 VLA 策略,实现了在无需任何真机数据微调的情况下,在静态和移动操纵任务中达到 SOTA 水平。

TL;DR

长期以来,机器人学界一直受困于“Sim-to-Real 鸿沟”的诅咒,认为没有真实世界的数据微调,模型就无法在现实中落地。Allen AI 团队通过 MolmoBot 强势打脸这一固有认知:通过开源的 MolmoBot-Engine 程序化生成了 180 万条 仿真专家轨迹,训练出的模型在无需任何真机微调的情况下,在现实挑战中以 79.2% 的成功率碾压了依赖万小时真实数据训练的 π0.5

1. 痛点:被垄断的“工业秘密”与真实数据困局

当前的机器人基础模型(如 NVIDIA 的 GR00T, Google 的 Gemini Robotics)大多是少数巨头实验室的“黑盒”。这些模型依赖海量的真实世界演示(Real-world Demonstrations),但具体的数据分布、过滤算法和训练配方从未完整公开。

对于广大科研人员,真实数据采集成本极高。学界普遍认为:仿真只适合预训练或压力测试,要解决操纵(Manipulation)问题,真机数据是“必修课”。

2. 核心直觉:多样性(Diversity)大于逼真度(Photorealism)

MolmoBot 的核心 Insight 在于:与其追求肉眼可见的物理真实感(Photorealism),不如追求物体、配置、视角和任务路径的极端多样性。

作者基于其先前的导航工作 SPOC 进一步扩展,认为只要仿真环境的 Inductive Bias 覆盖足够广(23.2 万个环境,4.8 万个可操纵物体),策略就能通过大规模模仿学习(Imitation Learning)自动过滤掉仿真的“虚假信号”,捕捉到底层的物理拓扑规律。

3. 技术脉络:MolmoBot 的三位一体

A. MolmoBot-Engine:永不停歇的数据工厂

这是整个系统的灵魂。它在 MuJoCo 仿真器上实现了高度随机化的程序化流程:

  • 物体多样性:从 Objaverse 和 iTHOR 中筛选上万个可抓取物体。
  • 动作噪声:不仅在初始位姿加噪,还在专家执行过程中注入与动作幅度成比例的噪声,防止模型退化成“动作重放机”。
  • 视觉随机化:灯光、贴图、相机外参全方位扰动。

模型架构图 图 1:MolmoBot-Engine 流程,从场景扩增到迭代重新规划的专家轨迹生成。

B. 模型架构:VLM 与 Flow-matching 的深度耦合

MolmoBot 并非简单的 V+L+A 堆叠,其旗舰架构基于 Molmo2-4B

  1. Vision Encoder:使用 SigLIP2 冻结编码,将图像 tokens 投影至语言模型空间。
  2. LLM Backbone:共同处理视觉 tokens 与自然语言指令。
  3. DiT Action Head:引入了类似步进扩散的 Flow-matching 机制,每一层 Action Layer 都通过 Cross-attention 与对应层级的 LLM 隐状态进行交互。这种“逐层耦合”的设计让模型能同时利用高层语义和底层空间特征。

核心架构图 图 2:MolmoBot 策略架构,展示了多视图融合与 Flow-matching Action Head。

4. 实验战绩:零样本迁移的奇迹

在 real-world DROID 评估中,MolmoBot 的表现令人震惊。在从未见过现实图像的情况下:

  • 静止操纵:成功率 79.2%,远高于 π0.5 的 39.2%。
  • 移动操纵:在全场景开门任务(Pull Door)中,虽然面临硬件故障和极端视角挑战,依然展示了成功的抓取和拉门轨迹。

实验结果对比 图 3:不同策略在现实环境中的成功率对比,MolmoBot 系列全面领先。

消融实验的关键发现(Ablations):

  • Scale 为王:性能随演示数量(从 10k 到 50k)单调上升。
  • 环境多样性陷阱:有趣的是,一旦数据量固定,单纯增加房子的数量对性能提升有限。这说明模型更渴求的是“具体的交互样本”而非“背景板的多样性”。
  • Action Representation:绝对坐标(Absolute Joint Policy)在真机迁移上显著优于增量坐标(Delta Policy)。

5. 深度洞察与总结

MolmoBot 的成功向行业发出了一个明确信号:高保真的数据(High-fidelity Data)或许比高保真的渲染(High-fidelity Rendering)更重要。

局限性: 虽然解决了刚体和铰接物体的操纵,但对于极端接触敏感的任务(如插拔、缝纫)或软体变形(布料、流体),MuJoCo 的仿真精度仍显不足。

未来展望: 随着物理引擎与生成式世界模型(World Models)的结合,这种“全仿真预训练 + 零样本迁移”的模式可能会成为机器人基础模型的标准范式,彻底改变对人类昂贵示教数据的依赖。


本报告由资深学术技术主编重构。

Find Similar Papers

Try Our Examples

  • 查找最近其他专注于通过大规模合成数据或程序化环境生成(Procedural Generation)来提升机器人操纵泛化能力的论文。
  • 哪篇论文最早在机器人领域引入了流匹配(Flow-matching)动作表示,MolmoBot 的 DiT-based 动作头与其有何改进?
  • 有哪些研究探讨了将大型视觉语言模型(VLA)在仿真中训练后,直接应用到移动操纵(Mobile Manipulation)及全身协调任务中的局限性?
Contents
[CVPR 2026] MolmoBot:彻底终结“真机数据焦虑”?大规模仿真赋能零样本操纵
1. TL;DR
2. 1. 痛点:被垄断的“工业秘密”与真实数据困局
3. 2. 核心直觉:多样性(Diversity)大于逼真度(Photorealism)
4. 3. 技术脉络:MolmoBot 的三位一体
4.1. A. MolmoBot-Engine:永不停歇的数据工厂
4.2. B. 模型架构:VLM 与 Flow-matching 的深度耦合
5. 4. 实验战绩:零样本迁移的奇迹
5.1. 消融实验的关键发现(Ablations):
6. 5. 深度洞察与总结