AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

[CVPR 2026] AtomicVLA：解耦原子技能，突破机器人长程任务与持续学习瓶颈

总结

问题

方法

结果

要点

摘要

本文提出了 AtomicVLA，一种统一“规划与执行”的机器人视觉-语言-动作 (VLA) 模型。通过引入技能引导的混合专家架构 (SG-MoE)，该模型实现了从高层任务规划到原子技能抽象，再到精细动作生成的端到端控制。在 LIBERO-LONG 长程任务上相较于 π0 提升了 10%，并在真实环境下展现了极强的持续学习能力。

TL;DR

机器人领域一直追求“通才”模型，但现有的视觉-语言-动作（VLA）模型在处理复杂长程任务时，往往像一个“偏科生”：要么能看懂指令但做不对动作，要么学会了新技能就忘了旧本领。中山大学等机构提出的 AtomicVLA 通过一种创新的 SG-MoE（技能引导混合专家） 架构，将任务规划与动作执行深度耦合，不仅在长程任务成功率上大幅超越 π0，更实现了近乎“无损”的技能扩展能力。

痛点深挖：为什么单一解码器不够用了？

传统的 VLA 模型（如 RT-2, π0）通常使用单一的 MLP 或 Diffusion Head 来预测动作。这种“一锅端”的方法在处理简单任务时效果尚可，但在现实场景中面临两大致命伤：

长程逻辑缺失：模型难以理解“打开微波炉 -> 放入盘子 -> 关闭舱门”这一系列动作背后的因果逻辑，一个小步骤的偏移会导致整个链条崩溃。
技能冲突与遗忘：当模型同时学习“开抽屉”和“堆叠方块”时，由于动作分布差异巨大，单一网络参数会产生严重冲突。学习新技能往往意味着旧技能的性能坍塌。

核心机制：AtomicVLA 的“大脑”与“肌肉”

AtomicVLA 的核心思想是 “分而治之”：用 VLM 做大脑进行逻辑拆解（Thinking），用 SG-MoE 做肌肉进行精细控制（Acting）。

1. 思考与执行的统架构

模型引入了两个特殊的 Token：[think] 和 [act]。

思考模式：输出当前任务链、执行进度和“原子技能抽象”（如 Pick, Place, Open）。
执行模式：根据最近一次的技能抽象，指挥机器人产生具体的电机控制信号。

2. SG-MoE：像专业团队一样协作

作者并未使用传统的 Token-level 路由，而是提出了 技能引导路由。模型架构图

共享专家 (Shared Expert)：继承 π0 的泛化底座能力，保持基础感知的敏锐。
原子技能专家 (Skill Expert)：每个专家只精修一种特定的原子操作。通过将技能抽象（如“Pick”）映射为高维 Embedding，路由器能精准激活最适合当前任务的专家。

3. 数据生产的一大法宝：主轴分析

为了训练模型识别“原子技能”，作者开发了一套自动化管线。通过分析末端执行器的 平移（x, y, z）、旋转（Roll, Pitch, Yaw） 以及 夹爪状态 的变化幅值，模型能自动将一段长视频切分为“抓取”、“移动”、“放下”等语义段，极大降低了人工标注成本。

实验战绩：全线 SOTA 与错误恢复能力

在 LIBERO-LONG 这一高难度基准上，AtomicVLA 表现出惊人的统治力：

性能飞跃：成功率比 π0 提升了 10%。
持续学习：在学习新技能“Open”后，传统模型 π0.5 的旧任务由于干扰下降了 15%，而 AtomicVLA* 仅下降了 1.3%，几乎做到了无损扩展。
闭环纠错：这是最令人惊喜的一点。当机器人抓取失败（如黄油掉落）时，模型能通过 [think] 模块重新评估当前状态，自动切换回“重新抓取”的专家分支，实现了自我救赎。

实验结果对比 (图：AtomicVLA 在抓取失败后的错误恢复过程演示)

深度洞察：为何这篇论文值得关注？

AtomicVLA 的意义在于它证明了 语义解耦 (Semantic Decoupling) 是 VLA 模型从“实验玩具”向“实用工业品”跨越的关键。

通过 MoE 的结构化设计，它部分解决了神经网络在具身智能上的“容量瓶颈”。
它将底层动作频率与高层逻辑频率进行了隐式对齐——不是每一帧都要反复思考逻辑，而是在关键节点（原子技能切换时）进行思维跳跃。

总结与局限

尽管 AtomicVLA 在长程任务上取得了突破，但其性能仍受限于 VLM 本身推理的准确性。如果“大脑”在第一步拆解时就判别错了技能抽象，底层的“肌肉”专家再精湛也无济于事。未来的研究方向可能会集中在如何通过 强化学习 (RL) 进一步微调这些专家模块，以实现零样本下的技能迁移。

关键词：AtomicVLA, SG-MoE, 具身智能, 持续学习, 长程机器人任务

发现相似论文

试试这些示例

查找最近一年内利用混合专家架构 (MoE) 解决机器人多任务干扰或持续学习问题的相关 SOTA 论文。
哪篇论文最早提出了视觉-语言-动作 (VLA) 模型中的层次化规划架构，本文在哪些具体模块上对其进行了改进？
探讨将原子技能抽象（Atomic Skill Abstraction）应用到基于强化学习 (RL) 的具身智能模型中的潜在方案与现有研究。

[CVPR 2026] AtomicVLA：解耦原子技能，突破机器人长程任务与持续学习瓶颈

1. TL;DR

2. 痛点深挖：为什么单一解码器不够用了？

3. 核心机制：AtomicVLA 的“大脑”与“肌肉”

3.1. 1. 思考与执行的统架构

3.2. 2. SG-MoE：像专业团队一样协作

3.3. 3. 数据生产的一大法宝：主轴分析

4. 实验战绩：全线 SOTA 与错误恢复能力

5. 深度洞察：为何这篇论文值得关注？

6. 总结与局限