本文提出了 AtomicVLA,一种统一“规划与执行”的机器人视觉-语言-动作 (VLA) 模型。通过引入技能引导的混合专家架构 (SG-MoE),该模型实现了从高层任务规划到原子技能抽象,再到精细动作生成的端到端控制。在 LIBERO-LONG 长程任务上相较于 π0 提升了 10%,并在真实环境下展现了极强的持续学习能力。
TL;DR
机器人领域一直追求“通才”模型,但现有的视觉-语言-动作(VLA)模型在处理复杂长程任务时,往往像一个“偏科生”:要么能看懂指令但做不对动作,要么学会了新技能就忘了旧本领。中山大学等机构提出的 AtomicVLA 通过一种创新的 SG-MoE(技能引导混合专家) 架构,将任务规划与动作执行深度耦合,不仅在长程任务成功率上大幅超越 π0,更实现了近乎“无损”的技能扩展能力。
痛点深挖:为什么单一解码器不够用了?
传统的 VLA 模型(如 RT-2, π0)通常使用单一的 MLP 或 Diffusion Head 来预测动作。这种“一锅端”的方法在处理简单任务时效果尚可,但在现实场景中面临两大致命伤:
- 长程逻辑缺失:模型难以理解“打开微波炉 -> 放入盘子 -> 关闭舱门”这一系列动作背后的因果逻辑,一个小步骤的偏移会导致整个链条崩溃。
- 技能冲突与遗忘:当模型同时学习“开抽屉”和“堆叠方块”时,由于动作分布差异巨大,单一网络参数会产生严重冲突。学习新技能往往意味着旧技能的性能坍塌。
核心机制:AtomicVLA 的“大脑”与“肌肉”
AtomicVLA 的核心思想是 “分而治之”:用 VLM 做大脑进行逻辑拆解(Thinking),用 SG-MoE 做肌肉进行精细控制(Acting)。
1. 思考与执行的统架构
模型引入了两个特殊的 Token:[think] 和 [act]。
- 思考模式:输出当前任务链、执行进度和“原子技能抽象”(如 Pick, Place, Open)。
- 执行模式:根据最近一次的技能抽象,指挥机器人产生具体的电机控制信号。
2. SG-MoE:像专业团队一样协作
作者并未使用传统的 Token-level 路由,而是提出了 技能引导路由。

- 共享专家 (Shared Expert):继承 π0 的泛化底座能力,保持基础感知的敏锐。
- 原子技能专家 (Skill Expert):每个专家只精修一种特定的原子操作。通过将技能抽象(如“Pick”)映射为高维 Embedding,路由器能精准激活最适合当前任务的专家。
3. 数据生产的一大法宝:主轴分析
为了训练模型识别“原子技能”,作者开发了一套自动化管线。通过分析末端执行器的 平移(x, y, z)、旋转(Roll, Pitch, Yaw) 以及 夹爪状态 的变化幅值,模型能自动将一段长视频切分为“抓取”、“移动”、“放下”等语义段,极大降低了人工标注成本。
实验战绩:全线 SOTA 与错误恢复能力
在 LIBERO-LONG 这一高难度基准上,AtomicVLA 表现出惊人的统治力:
- 性能飞跃:成功率比 π0 提升了 10%。
- 持续学习:在学习新技能“Open”后,传统模型 π0.5 的旧任务由于干扰下降了 15%,而 AtomicVLA* 仅下降了 1.3%,几乎做到了无损扩展。
- 闭环纠错:这是最令人惊喜的一点。当机器人抓取失败(如黄油掉落)时,模型能通过 [think] 模块重新评估当前状态,自动切换回“重新抓取”的专家分支,实现了自我救赎。
(图:AtomicVLA 在抓取失败后的错误恢复过程演示)
深度洞察:为何这篇论文值得关注?
AtomicVLA 的意义在于它证明了 语义解耦 (Semantic Decoupling) 是 VLA 模型从“实验玩具”向“实用工业品”跨越的关键。
- 通过 MoE 的结构化设计,它部分解决了神经网络在具身智能上的“容量瓶颈”。
- 它将底层动作频率与高层逻辑频率进行了隐式对齐——不是每一帧都要反复思考逻辑,而是在关键节点(原子技能切换时)进行思维跳跃。
总结与局限
尽管 AtomicVLA 在长程任务上取得了突破,但其性能仍受限于 VLM 本身推理的准确性。如果“大脑”在第一步拆解时就判别错了技能抽象,底层的“肌肉”专家再精湛也无济于事。未来的研究方向可能会集中在如何通过 强化学习 (RL) 进一步微调这些专家模块,以实现零样本下的技能迁移。
关键词:AtomicVLA, SG-MoE, 具身智能, 持续学习, 长程机器人任务
