From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

[ICLR 2025] DICE-RL：从 Prior 到 Pro，如何通过分布收缩实现机器人技能的高效精通？

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DICE-RL 框架，一种高效且稳定的强化学习（RL）微调方法，旨在将预训练的生成式行为克隆（BC）模型转变为高性能的“专家”策略。通过将 RL 视为在预训练分布上的“分布收敛（Distribution Contraction）”算子，DICE-RL 在 Robomimic 和实机任务（如 BeltAssembly）中均实现了 SOTA 性能，在稀疏奖励的长程任务中表现尤为突出。

TL;DR

在机器人控制领域，如何让一个“还行”的预训练模型变成“专家级”？本文提出的 DICE-RL (Distribution Contractive RL) 给出了答案：不要推翻重来，而要将强化学习（RL）作为一种分布收缩算子。通过在预训练的生成式策略（如 Diffusion/Flow-based BC）上添加智能残差修正，DICE-RL 在极少的在线交互下，让模型在复杂长程任务（如皮带组装）上达到了 90% 以上的成功率。

核心定位

DICE-RL 代表了机器人策略后训练（Post-training）的新趋势：它不再纠结于从零训练 RL，而是借鉴了 LLM 中 RLVR 的思路，利用在线反馈通过“分布锐化”来打磨预训练的 Behavior Prior。

1. 痛点：为什么微调生成式策略这么难？

当前的机器人策略（如 Diffusion Policy）虽然表达能力极强，但在 RL 微调时面临三大挑战：

计算成本高：Diffusion 的去噪过程涉及数十步迭代，直接求导不仅慢，梯度还会发生爆炸或消失。
探索与漂移的权衡：完全自由的 RL 探索会让机器人做出诡异的物理动作，丧失 BC 学习到的先验知识。
样本效率低：在稀疏奖励的长程任务（Long-horizon）中，RL 往往在大海捞针。

2. Methodology: DICE-RL 的三大设计支柱

2.1 残差策略参数化 (Residual Parameterization)

DICE-RL 并没有直接去调生成模型的权重，而是引入了一个轻量级的残差模块 $s_{h e t a} (s, z)$ 。 $a_{t : t + h - 1} = π_{p r e} (s_{t}, z) + s_{h e t a} (s_{t}, z)$ 这里的核心直觉是：Base 模型负责提供物理合理的“底稿”，RL 负责细微的“润色”。这种设计规避了对 ODE/SDE 求解器的反向传播，极大提升了训练速度。

2.2 选择性正则化 (BC-loss Filter)

为了防止残差乱跑，通常会加一个 BC 惩罚项。但 DICE-RL 更有创意：如果不加区分地惩罚残差，RL 的改进就会被抑制。作者设计了一个 Filter，只有当 RL 提议的动作没有明显优于 Base 动作，或者 Q 值估计出现明显偏离（Overestimation）时，才激活正则化。

2.3 架构解析

模型架构图 图 1：DICE-RL 将随机的 Behavior Prior（灰色区域）通过 RL 修正收缩到高价值的“Pro”区域（橙色点）。

3. 实验与结果：刷新长程任务 SOTA

作者在 Robomimic 标准库和实机任务上进行了严苛的测试。

3.1 性能飞跃

在复杂的 Tool Hang 任务中，DICE-RL 的表现远超 IBRL、DPPO 和近日大火的 ResFit。

成功率：从 BC 阶段的 45% 直接暴涨至 93%。
样本集：仅使用了 50 个专家演示，展现了极高的 Data-efficiency。

实验结果对比 图 2：在像素（Pixel）和状态（State）输入下，DICE-RL 在各类任务（Can, Square, Tool Hang）中的收敛速度和最终成功率均大幅领先基线。

3.2 实机硬核任务：皮带组装 (Belt Assembly)

实机实验中最具说服力的是皮带组装。这涉及柔性物体和极小公差的接触。实机任务对比 图 3：左图显示了原生 BC 策略在皮带滑落和位置偏移上的典型失败模式；右图展示了经 DICE-RL 微调后，机器人能精准完成组装。

4. 深度洞察：RL 到底在做什么？

论文最精彩的部分在于其理论分析。作者提出了两个关键概念：

Distribution Sharpening（分布锐化）：RL 的作用是把原本发散的概率分布压实，让其集中在最高价值的动作上。实验观察到，在任务最关键的阶段（如插入瞬间），策略的熵（Entropy）显著下降。
Contraction（收缩轨迹）：微调后的策略表现出更强的“漏斗效应”（Funneling effect）。即便初始位置有扰动，RL 策略也会迅速将轨迹收拢回成功路径，这显著提升了策略的 Robustness。

5. 总结与展望

DICE-RL 简洁而优雅。它告诉我们，强化学习没必要总是扮演“探索者”，在预训练模型时代，它更适合扮演一名“精雕师”。

局限性：虽然鲁棒性提升了，但它仍然高度依赖于 Prior 提供的探索空间。如果预训练数据里完全没有相关动作，DICE-RL 也很难“无中生有”。

未来工作：将此框架扩展到跨任务的 VLA 模型中，或许将是实现通用机器人智能的关键路径。

Find Similar Papers

Try Our Examples

查找最近其他试图解决 Diffusion Policy 在强化学习微调中计算效率过低或训练不稳定性问题的策略改进论文。
哪篇论文最早在机器人领域提出了基于残差学习（Residual Learning）的策略改进，本文在正则化机制上做了哪些本质的创新？
有哪些研究探讨了将 DICE-RL 这种分布收缩方法应用到多模态大模型（如 OpenVLA 或 RT-2）的下游任务微调中？

Contents

[ICLR 2025] DICE-RL：从 Prior 到 Pro，如何通过分布收缩实现机器人技能的高效精通？

1. TL;DR

2. 核心定位

3. 1. 痛点：为什么微调生成式策略这么难？

4. 2. Methodology: DICE-RL 的三大设计支柱

4.1. 2.1 残差策略参数化 (Residual Parameterization)

4.2. 2.2 选择性正则化 (BC-loss Filter)

4.3. 2.3 架构解析

5. 3. 实验与结果：刷新长程任务 SOTA

5.1. 3.1 性能飞跃

5.2. 3.2 实机硬核任务：皮带组装 (Belt Assembly)

6. 4. 深度洞察：RL 到底在做什么？

7. 5. 总结与展望