AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

[CVPR 2026] AcceRL：分布式异步世界模型框架，让 VLA 模型在“梦境”中进化

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 AcceRL，一个专为具身智能 Vision-Language-Action (VLA) 模型设计的分布式异步强化学习框架。该框架首次将可训练的扩散世界模型 (World Model) 集成到异步流水线中，通过“梦境训练”绕过物理仿真瓶颈，并在 LIBERO 基准测试中实现了 SOTA 性能。

TL;DR

传统的强化学习（RL）在处理大规模具身智能模型（VLA）时，常常被慢速的物理仿真器和频繁的同步等待拖垮。本文提出的 AcceRL 彻底打破了这一桎梏。它通过物理隔离训练、推理和采样流，并首次引入可训练的扩散世界模型（Diffusion World Model），让模型能够在合成的虚拟经验中高速学习。实验证明，该框架不仅解决了 GPU 闲置问题，还让样本效率提升了惊人的 200 倍。

痛点深挖：被物理世界锁死的计算力

在机器人控制领域，Vision-Language-Action (VLA) 模型（如 OpenVLA）通常利用模仿学习（Behavior Cloning）初始化，但这种方法极易产生误差累积。引入 RL 进行在线微调是标准解法，但面临三大“长尾”难题：

步骤级长尾：GPU 必须等待最慢的仿真步完成才能进行下一次推理。
回合级长尾：不同任务结束时间不一，导致同步屏障下的大量 GPU 泡泡（Idle Bubbles）。
集群级长尾：传统 PPO 需要所有 Worker 收集完数据才能更新，单点慢则全盘慢。

同步 vs 异步 Timeline 对比

核心方法论：AcceRL 的解耦艺术

1. 双层异步架构 (Macro & Micro Asynchrony)

AcceRL 将系统拆分为三个独立流：

Inference-as-a-Service：环境交互在 CPU 上跑，推理请求发送到专用的 GPU 推理池。通过动态窗口机制（Dynamic Window Mechanism）实现最优 Batching。
非阻塞训练流：训练器从分布式 Buffer 采样，同时利用 ZeRO-2 优化显存，参数更新后通过 NCCL 广播。

2. 学习于“梦境”：集成世界模型

这是 AcceRL 最具前瞻性的设计。它集成了一个基于 DIAMOND 架构的扩散模型（Mobs）和一个奖励模型（Mreward）。

想象力采样：Rollout Worker 不再死磕物理引擎，而是先在扩散模型生成的“高保真梦境”中进行短步长（Horizon H）的预测与学习。
潜力奖励 (Potential-based Reward)：利用状态间的成功概率差作为稠密奖励，引导模型快速收敛。

AcceRL 总体架构图

3. 算法层面的“稳压器”

Token-level 优化：针对 VLA 的自回归特性，将 CLIP 损失作用于每个 Token，避免了 Chunk-level 导致的数值不稳定。
GIPO 算法：用高斯置信权重（Gaussian trust weight）取代 PPO 的硬截断（Hard Clipping），在处理异步导致的策略滞后（Policy Lag）时，稳定性远超原生 PPO。

实验与结果：超线性的算力释放

在 LIBERO 基准测试上，AcceRL 的表现令人瞩目。

超线性扩展性

由于采用了 ZeRO-2 分散显存压力，随着 GPU 数量增加，单卡能容纳的微批次（Micro-batch）更大，算术强度提升。在 7 块 H200 上，训练吞吐量达到了 104.22 SPS，展现出比理想状态更优的扩展曲线。

吞吐量对比图

样本效率的跃迁

借助世界模型的虚拟经验，AcceRL 在不到 10,000 步的真实环境交互中，就能让模型性能突破 0.8 的 Reward 阈值，这在处理图像作为观测的具身任务中是非常罕见的速度。

LIBERO 任务表现

深度洞察与总结

AcceRL 的核心贡献在于它不仅仅是一个算法改进，更是一套成熟的工业化生产系统方案。 它巧妙地解决了大模型 RL 中“昂贵算力与廉价模拟器”之间的矛盾。

局限性： 虽然在具身任务上表现出色，但该框架目前尚未完全支持大规模语言模型（LLM）的全量 Post-training 对齐。

展望： 本文提出的“置信度奖励模型 + 扩散世界模型 + 全解耦异步管道”可能会成为未来机器人垂类大模型的主流训练标准。它不仅让机器人学会了“做”，更让机器人学会在大脑中“模拟后果”，这正是通往 AGI 的必经之路。

Find Similar Papers

Try Our Examples

查询其他近期利用扩散模型作为世界模型进行强化学习（World Model-based RL）的具身智能研究。
哪篇论文最早提出了分布式强化学习中的策略滞后（Policy Lag）问题，本文提到的 GIPO 算法与其有何演进关系？
探索将 AcceRL 的全异步物理解耦架构应用到跨节点多模态大模型（Large Multimodal Models）推理任务中的潜力。

Contents

[CVPR 2026] AcceRL：分布式异步世界模型框架，让 VLA 模型在“梦境”中进化

1. TL;DR

2. 痛点深挖：被物理世界锁死的计算力

3. 核心方法论：AcceRL 的解耦艺术

3.1. 1. 双层异步架构 (Macro & Micro Asynchrony)

3.2. 2. 学习于“梦境”：集成世界模型

3.3. 3. 算法层面的“稳压器”

4. 实验与结果：超线性的算力释放

4.1. 超线性扩展性

4.2. 样本效率的跃迁

5. 深度洞察与总结