MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

[CVPR 2026] MolmoBot：彻底终结“真机数据焦虑”？大规模仿真赋能零样本操纵

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 MolmoBot，一种通过大规模仿真数据实现零样本（Zero-shot）真机迁移的机器人操纵系统。核心贡献包括开源的数据生成引擎 MolmoBot-Engine、包含 180 万条专家轨迹的 MolmoBot-Data，以及基于 Molmo2 视频语言模型构建的 VLA 策略，实现了在无需任何真机数据微调的情况下，在静态和移动操纵任务中达到 SOTA 水平。

TL;DR

长期以来，机器人学界一直受困于“Sim-to-Real 鸿沟”的诅咒，认为没有真实世界的数据微调，模型就无法在现实中落地。Allen AI 团队通过 MolmoBot 强势打脸这一固有认知：通过开源的 MolmoBot-Engine 程序化生成了 180 万条 仿真专家轨迹，训练出的模型在无需任何真机微调的情况下，在现实挑战中以 79.2% 的成功率碾压了依赖万小时真实数据训练的 π0.5。

1. 痛点：被垄断的“工业秘密”与真实数据困局

当前的机器人基础模型（如 NVIDIA 的 GR00T, Google 的 Gemini Robotics）大多是少数巨头实验室的“黑盒”。这些模型依赖海量的真实世界演示（Real-world Demonstrations），但具体的数据分布、过滤算法和训练配方从未完整公开。

对于广大科研人员，真实数据采集成本极高。学界普遍认为：仿真只适合预训练或压力测试，要解决操纵（Manipulation）问题，真机数据是“必修课”。

2. 核心直觉：多样性（Diversity）大于逼真度（Photorealism）

MolmoBot 的核心 Insight 在于：与其追求肉眼可见的物理真实感（Photorealism），不如追求物体、配置、视角和任务路径的极端多样性。

作者基于其先前的导航工作 SPOC 进一步扩展，认为只要仿真环境的 Inductive Bias 覆盖足够广（23.2 万个环境，4.8 万个可操纵物体），策略就能通过大规模模仿学习（Imitation Learning）自动过滤掉仿真的“虚假信号”，捕捉到底层的物理拓扑规律。

3. 技术脉络：MolmoBot 的三位一体

A. MolmoBot-Engine：永不停歇的数据工厂

这是整个系统的灵魂。它在 MuJoCo 仿真器上实现了高度随机化的程序化流程：

物体多样性：从 Objaverse 和 iTHOR 中筛选上万个可抓取物体。
动作噪声：不仅在初始位姿加噪，还在专家执行过程中注入与动作幅度成比例的噪声，防止模型退化成“动作重放机”。
视觉随机化：灯光、贴图、相机外参全方位扰动。

模型架构图 图 1：MolmoBot-Engine 流程，从场景扩增到迭代重新规划的专家轨迹生成。

B. 模型架构：VLM 与 Flow-matching 的深度耦合

MolmoBot 并非简单的 V+L+A 堆叠，其旗舰架构基于 Molmo2-4B：

Vision Encoder：使用 SigLIP2 冻结编码，将图像 tokens 投影至语言模型空间。
LLM Backbone：共同处理视觉 tokens 与自然语言指令。
DiT Action Head：引入了类似步进扩散的 Flow-matching 机制，每一层 Action Layer 都通过 Cross-attention 与对应层级的 LLM 隐状态进行交互。这种“逐层耦合”的设计让模型能同时利用高层语义和底层空间特征。

核心架构图 图 2：MolmoBot 策略架构，展示了多视图融合与 Flow-matching Action Head。

4. 实验战绩：零样本迁移的奇迹

在 real-world DROID 评估中，MolmoBot 的表现令人震惊。在从未见过现实图像的情况下：

静止操纵：成功率 79.2%，远高于 π0.5 的 39.2%。
移动操纵：在全场景开门任务（Pull Door）中，虽然面临硬件故障和极端视角挑战，依然展示了成功的抓取和拉门轨迹。

实验结果对比 图 3：不同策略在现实环境中的成功率对比，MolmoBot 系列全面领先。

消融实验的关键发现（Ablations）：

Scale 为王：性能随演示数量（从 10k 到 50k）单调上升。
环境多样性陷阱：有趣的是，一旦数据量固定，单纯增加房子的数量对性能提升有限。这说明模型更渴求的是“具体的交互样本”而非“背景板的多样性”。
Action Representation：绝对坐标（Absolute Joint Policy）在真机迁移上显著优于增量坐标（Delta Policy）。

5. 深度洞察与总结

MolmoBot 的成功向行业发出了一个明确信号：高保真的数据（High-fidelity Data）或许比高保真的渲染（High-fidelity Rendering）更重要。

局限性：虽然解决了刚体和铰接物体的操纵，但对于极端接触敏感的任务（如插拔、缝纫）或软体变形（布料、流体），MuJoCo 的仿真精度仍显不足。

未来展望：随着物理引擎与生成式世界模型（World Models）的结合，这种“全仿真预训练 + 零样本迁移”的模式可能会成为机器人基础模型的标准范式，彻底改变对人类昂贵示教数据的依赖。

本报告由资深学术技术主编重构。

Find Similar Papers

Try Our Examples

查找最近其他专注于通过大规模合成数据或程序化环境生成（Procedural Generation）来提升机器人操纵泛化能力的论文。
哪篇论文最早在机器人领域引入了流匹配（Flow-matching）动作表示，MolmoBot 的 DiT-based 动作头与其有何改进？
有哪些研究探讨了将大型视觉语言模型（VLA）在仿真中训练后，直接应用到移动操纵（Mobile Manipulation）及全身协调任务中的局限性？

Contents

[CVPR 2026] MolmoBot：彻底终结“真机数据焦虑”？大规模仿真赋能零样本操纵

1. TL;DR

2. 1. 痛点：被垄断的“工业秘密”与真实数据困局

3. 2. 核心直觉：多样性（Diversity）大于逼真度（Photorealism）

4. 3. 技术脉络：MolmoBot 的三位一体

4.1. A. MolmoBot-Engine：永不停歇的数据工厂

4.2. B. 模型架构：VLM 与 Flow-matching 的深度耦合

5. 4. 实验战绩：零样本迁移的奇迹

5.1. 消融实验的关键发现（Ablations）：

6. 5. 深度洞察与总结