本文推出了 JoyAI-RA 0.1,一个针对通用机器人操作的具身智能基础模型。该模型采用多源多级预训练框架,整合了 Web 数据、大规模人类第一视角视频、仿真轨迹及真实机器人数据,在 RoboTwin 2.0 和 RoboCasa 等基准测试中刷新了 SOTA 记录。
TL;DR
机器人自主操作长期以来被两座大山压制:数据稀缺和本体差异。JoyAI-RA 0.1 通过融合 Web 语义、人类操作视频(EgoLive 数据集)、仿真数据和真实机器人演示,构建了一个全能型 VLA(Vision-Language-Action)基础模型。它不仅能在仿真环境中以 90% 以上的成功率完成复杂任务,更在真实的双臂协作和灵巧手操作中展现了极强的泛化能力。
痛点深挖:为什么通用机器人这么难?
在开放世界中,机器人需要处理从未见过的物体、应对光照变化、还要在不同的硬件平台(本体)上保持性能。
- 数据孤岛:真实机器人数据获取极贵(Teleoperation 成本高),导致长尾场景覆盖不足。
- 本体鸿沟:ALOHA 机器人的动作记录无法直接给 AgiBot 甚至人形机器人用,异构映射(Retargeting)效率极低。
- 语义缺失:传统的端到端控制缺乏常识,难以理解“把耳机挂起来”这种复杂的语义指令。
Methodology:JoyAI-RA 的三板斧
1. 统一动作空间(Unified Action Space)
JoyAI-RA 并没有为每种机器人训练副本,而是建立了一个“宇宙通用坐标系”。它将所有动作投影到**相机参考系(Camera-frame)**下的末端执行器位姿。
- 物理语义一致性:无论底座在哪,相对于摄像头向左移动 10cm 的空间含义是恒定的。
- 动作掩码机制:通过统一长度的动作向量覆盖所有可能的执行器组(双臂、灵巧手、夹爪),对于不存在的自由度(DoF)进行 Mask 处理。
2. 模块化架构:VLM + Perceiver 专家
JoyAI-RA 并没有采用单一的大模型处理一切,而是通过耦合实现了效率最大化:
- VLM 主干:负责解析视觉语义和长程规划。
- 感知动作专家(Perceiver-based Action Expert):利用 Perceiver 的潜变量瓶颈(Latent Bottleneck)进行多模态融合,并通过 Flow-matching 流程生成连续、平滑的动作序列。

3. 三阶段预训练食谱
- Stage 1: VLM Co-Pretraining:引入 10M 级的 Web 图像理解数据,让模型先拥有“常识”。
- Stage 2: VLA Co-Pretraining:加入 EgoLive(人类操作视频)和仿真数据,让模型学习“如何动”。
- Stage 3: Post-Training:在目标机器人上进行微调,解决硬件噪声和接触不确定性。
实验结果:全方位的跨越
1. 仿真基准的统治力
在 RoboTwin 2.0 的 50 个复杂任务中,JoyAI-RA 在“调整瓶子”、“抓取滚轮”等任务中达到了 100% 成功率。相比之前的 π0 和 Motus,JoyAI-RA 特别是在随机化场景(Hard Setting)下表现出极强的鲁棒性。

2. 人类视频的力量
论文最令人的惊喜的结论在于:加入 100% 的 EgoLive 数据比不加人类数据的成功率提升了近 10 个百分点。这意味着机器人可以从人类刷牙、折衣服、整理药品的视频中吸取“交互直觉”,这大大降低了对昂贵机器人数据的依赖。

深度洞察与展望
JoyAI-RA 的成功验证了 “多源数据异构训练” 的可行性。它告诉我们,未来的机器人不再需要为每一个新场景从零开始收集数据,而是可以通过:
- 语义层:从互联网学习。
- 先验层:从人类第一视角视频学习。
- 技能层:从大规模仿真学习。
- 适配层:在真实环境小样本闭环。
局限性:虽然语义理解很强,但在执行极长轨迹(Long-horizon)或涉及极精细力控的任务(如倒细小垃圾)时,模型仍存在偶发性失败。
未来愿景:随着 EgoLive 等人类侧数据的进一步规模化,机器人或许能像人类通过观看 YouTube 学习厨艺一样,通过观看人类视频直接掌握复杂的新技能。
