WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] AcceRL:分布式异步世界模型框架,让 VLA 模型在“梦境”中进化
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 AcceRL,一个专为具身智能 Vision-Language-Action (VLA) 模型设计的分布式异步强化学习框架。该框架首次将可训练的扩散世界模型 (World Model) 集成到异步流水线中,通过“梦境训练”绕过物理仿真瓶颈,并在 LIBERO 基准测试中实现了 SOTA 性能。

TL;DR

传统的强化学习(RL)在处理大规模具身智能模型(VLA)时,常常被慢速的物理仿真器和频繁的同步等待拖垮。本文提出的 AcceRL 彻底打破了这一桎梏。它通过物理隔离训练、推理和采样流,并首次引入可训练的扩散世界模型(Diffusion World Model),让模型能够在合成的虚拟经验中高速学习。实验证明,该框架不仅解决了 GPU 闲置问题,还让样本效率提升了惊人的 200 倍。

痛点深挖:被物理世界锁死的计算力

在机器人控制领域,Vision-Language-Action (VLA) 模型(如 OpenVLA)通常利用模仿学习(Behavior Cloning)初始化,但这种方法极易产生误差累积。引入 RL 进行在线微调是标准解法,但面临三大“长尾”难题:

  1. 步骤级长尾:GPU 必须等待最慢的仿真步完成才能进行下一次推理。
  2. 回合级长尾:不同任务结束时间不一,导致同步屏障下的大量 GPU 泡泡(Idle Bubbles)。
  3. 集群级长尾:传统 PPO 需要所有 Worker 收集完数据才能更新,单点慢则全盘慢。

同步 vs 异步 Timeline 对比

核心方法论:AcceRL 的解耦艺术

1. 双层异步架构 (Macro & Micro Asynchrony)

AcceRL 将系统拆分为三个独立流:

  • Inference-as-a-Service:环境交互在 CPU 上跑,推理请求发送到专用的 GPU 推理池。通过动态窗口机制(Dynamic Window Mechanism)实现最优 Batching。
  • 非阻塞训练流:训练器从分布式 Buffer 采样,同时利用 ZeRO-2 优化显存,参数更新后通过 NCCL 广播。

2. 学习于“梦境”:集成世界模型

这是 AcceRL 最具前瞻性的设计。它集成了一个基于 DIAMOND 架构的扩散模型(Mobs)和一个奖励模型(Mreward)。

  • 想象力采样:Rollout Worker 不再死磕物理引擎,而是先在扩散模型生成的“高保真梦境”中进行短步长(Horizon H)的预测与学习。
  • 潜力奖励 (Potential-based Reward):利用状态间的成功概率差作为稠密奖励,引导模型快速收敛。

AcceRL 总体架构图

3. 算法层面的“稳压器”

  • Token-level 优化:针对 VLA 的自回归特性,将 CLIP 损失作用于每个 Token,避免了 Chunk-level 导致的数值不稳定。
  • GIPO 算法:用高斯置信权重(Gaussian trust weight)取代 PPO 的硬截断(Hard Clipping),在处理异步导致的策略滞后(Policy Lag)时,稳定性远超原生 PPO。

实验与结果:超线性的算力释放

LIBERO 基准测试上,AcceRL 的表现令人瞩目。

超线性扩展性

由于采用了 ZeRO-2 分散显存压力,随着 GPU 数量增加,单卡能容纳的微批次(Micro-batch)更大,算术强度提升。在 7 块 H200 上,训练吞吐量达到了 104.22 SPS,展现出比理想状态更优的扩展曲线。

吞吐量对比图

样本效率的跃迁

借助世界模型的虚拟经验,AcceRL 在不到 10,000 步的真实环境交互中,就能让模型性能突破 0.8 的 Reward 阈值,这在处理图像作为观测的具身任务中是非常罕见的速度。

LIBERO 任务表现

深度洞察与总结

AcceRL 的核心贡献在于它不仅仅是一个算法改进,更是一套成熟的工业化生产系统方案。 它巧妙地解决了大模型 RL 中“昂贵算力与廉价模拟器”之间的矛盾。

局限性: 虽然在具身任务上表现出色,但该框架目前尚未完全支持大规模语言模型(LLM)的全量 Post-training 对齐。

展望: 本文提出的“置信度奖励模型 + 扩散世界模型 + 全解耦异步管道”可能会成为未来机器人垂类大模型的主流训练标准。它不仅让机器人学会了“做”,更让机器人学会在大脑中“模拟后果”,这正是通往 AGI 的必经之路。

Find Similar Papers

Try Our Examples

  • 查询其他近期利用扩散模型作为世界模型进行强化学习(World Model-based RL)的具身智能研究。
  • 哪篇论文最早提出了分布式强化学习中的策略滞后(Policy Lag)问题,本文提到的 GIPO 算法与其有何演进关系?
  • 探索将 AcceRL 的全异步物理解耦架构应用到跨节点多模态大模型(Large Multimodal Models)推理任务中的潜力。
Contents
[CVPR 2026] AcceRL:分布式异步世界模型框架,让 VLA 模型在“梦境”中进化
1. TL;DR
2. 痛点深挖:被物理世界锁死的计算力
3. 核心方法论:AcceRL 的解耦艺术
3.1. 1. 双层异步架构 (Macro & Micro Asynchrony)
3.2. 2. 学习于“梦境”:集成世界模型
3.3. 3. 算法层面的“稳压器”
4. 实验与结果:超线性的算力释放
4.1. 超线性扩展性
4.2. 样本效率的跃迁
5. 深度洞察与总结