本文提出了 AtomVLA,一个集成子任务感知的两阶段可扩展 VLA 训练框架。该模型结合了 Qwen3-VL 骨干网络与基于 Flow-matching 的 Action Head,在 LIBERO 基准测试中达到 97.0% 的 SOTA 成功率。
核心速览
TL;DR:AtomVLA 解决了大模型在机器人控制中“听不懂复杂指令”和“长距离任务易出错”的痛点。它通过将复杂任务分解为“原子步骤”,并利用一个不必生成像素、只在隐空间对比目标的“世界模型”进行离线强化学习优化。
背景定位:该工作是 VLA(Vision-Language-Action)领域关于 Post-Training 的重要突破。它避开了高昂的在线采集成本,证明了利用现有的视频表征模型(如 V-JEPA2)作为虚拟教练,能显著提升轻量化模型(4B)在复杂任务及长时程操作中的表现。
痛点与动机:为什么 VLA 总是“半途而废”?
当前的 VLA 模型(如 OpenVLA, RT-2)在处理简单任务时表现尚可,但在面对“折叠 T 恤”或“长距离抓取摆放”时经常出错。分析其本质原因有三:
- 指令鸿沟 (Instruction Gap):全局指令(如“做饭”)太粗,模型不知道当前这一秒该对准哪个盘子。
- 复合误差 (Compounding Errors):在长序列任务中,一步走错,后面全盘皆输。
- RL 成本高昂:强化学习需要大量交互,让价值数万美金的机械臂在真实世界里“试错”既危险又缓慢。
作者由此产生直觉:如果能让模型在心里(隐空间)先演练一下动作的结果,并对照子任务目标进行自我修正,是否就能闭离线完成策略升级?
方法论详解:AtomVLA 的双阶段架构
第一阶段:原子级子任务分解 (Subtask-Aware SFT)
作者调用 GPT-4o 对演示数据进行“解剖”,将一个大动作分解为 2-5 个标准化的原子行为(如 Pick up, Place into, Open/Close)。在 SFT 阶段,模型输入的不仅是视觉和全局指令,还包含了这些细粒度的 Atomic Instructions。
第二阶段:基于隐空间世界模型的离线强化学习
这是本文最精妙的部分。作者引入了 GRPO (Group Relative Policy Optimization),但与大语言模型中的 GRPO 不同,AtomVLA 的奖励信号来自一个预训练的预测性世界模型(V-JEPA2)。

- Predictive Latent World Model:给定当前状态 和候选动作序列 ,预测器 在隐空间推演未来的状态 。
- 奖励计算:通过计算预测状态与“子任务目标状态”以及“全局目标状态”在隐空间的 距离来给出奖励,从而引导模型生成最符合目标的动作。
实验与结果:即便没有大规模预训练,依然表现强劲
实验显示,AtomVLA 在 LIBERO 基准测试中几乎横扫了所有主流 baseline,包括 7B 规模的 OpenVLA 和强力的 π0 框架。

- 消融实验证明:子任务奖励(Subgoal reward)对性能提升至关重要。仅靠全局目标可能导致模型迷失方向,而加入 奖励后,在 Long-horizon 任务上获得了 4.4% 的显著增益。
- 真实世界表现:在 Galaxea R1 Lite 平台上,AtomVLA 成功完成了“叠 T 恤”和“叠毛巾”等涉及柔性物体的长时程任务,泛化成功率远超 π0。
深度洞察与总结
Takeaway: AtomVLA 的成功揭示了一个趋势:具身智能的未来不在于无限堆大参数量,而在于对任务逻辑的精细解构与对动作结果的预测能力。
局限性与展望: 目前的子任务边界是由 LLM 事先静态生成的。在面对高度动态或未见过的突发状况时,静态边界可能失效。作者提出,未来的方向是端到端的在线子任务生成以及具备不确定性感知的世界模型,使机器人能在执行过程中实时调整策略。
资深编辑点评:本文通过引入 JEPA 结构的隐空间世界模型,巧妙地避开了生成式世界模型(如视频生成模型)容易产生的“视觉幻觉”问题,为工业界提供了一个高性能、低算力消耗的离线强化学习参考方案。
