OGPO: Sample Efficient Full-Finetuning of Generative Control Policies

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

OGPO: Sample Efficient Full-Finetuning of Generative Control Policies

OGPO：解耦“想象”与“现实”，实现生成式控制策略的高效微调

总结

问题

方法

结果

要点

摘要

本文提出了 OGPO（Off-policy Generative Policy Optimization），一种专为生成式控制策略（GCP）设计的高采样效率全策略微调算法。通过将双层 MDP 解耦并在“想象”的去噪过程中应用 PPO 优化，OGPO 在多项复杂机器人操纵任务中达到了 SOTA 性能。

TL;DR

生成式控制策略（Generative Control Policies, GCPs），如扩散策略（Diffusion Policy）和流匹配策略（Flow-matching Policy），已成为机器人学习的利器。然而，如何高效地通过强化学习（RL）对这些策略进行全量微调一直是个难题。本文提出的 OGPO (Off-policy Generative Policy Optimization) 通过巧妙地解耦环境交互与内部去噪优化，在保持极高采样效率的同时，实现了对复杂操纵任务的全策略优化。

核心地位：该工作是 GCP 微调领域的一里程碑，它填补了“低样本效率的全量微调”与“高样本效率的受限微调（如残差、转向）”之间的空白，达到了采样效率与最终表现的双赢。

痛点深挖：为什么 GCP 的全量微调这么难？

在机器人任务中，环境交互（收集真实样本）是非常昂贵的，而计算去噪（在模型内部生成动作）则是廉价的。

现有方法的僵局：
- 在线策略 (On-policy)：如 DPPO，需要大量的新鲜环境样本，采样效率极低。
- 离线策略 (Off-policy)：如 DSRL 或 EXPO，虽然样本重用率高，但通常只更新初始噪声（Steering）或学习一个残差项（Residual），当初始策略较弱时，它们无法改变策略的核心分布。
梯度的噩梦：通过 10 步甚至几十步的去噪链进行反向传播（BPTT）会导致严重的梯度爆炸或消失问题，尤其是在充满碰撞和非平滑接触的机器人任务中。

核心机制：OGPO 的“断后”艺术

OGPO 的核心 Insight 在于：与其通过整个环境序列进行端到端优化，不如在每一个动作执行的瞬间将世界“切断”。

1. 双层 MDP 的解耦 (Bi-level MDP Severing)

作者借用了 [Ren et al., 2024] 的双层 MDP 视角。在 OGPO 中：

外层 MDP：机器人与真实环境交互，收集 $(s, a, s^{'}, r)$ 。
内层 MDP：模型内部的去噪过程，即在一个环境状态下，通过 $K$ 步生成动作。

OGPO 的独创性在于，它使用一个维护在离线回放池中的 Q 函数（Critic） 作为内层去噪 MDP 的“终止奖励”。

模型架构图

2. 零阶优化 (Zeroth-order Optimization)

为了躲避 backpropagation 的陷阱，OGPO 采用了 PPO 样式的零阶优化。它在同一个状态下并行生成多条“想象”的去噪轨迹，计算它们的累积概率比（AIS ratio），并根据离线 Critic 给出的优势信号（Advantage）来更新网络。这种方法不仅规避了梯度不平滑问题，还支持极大的 Batch Size 进行并行。

3. ODE-to-SDE 的纠偏算法

流匹配模型通常是确定性的，这对需要探索的 RL 并不利。OGPO 引入了高斯噪声使去噪过程随机化，但为了防止噪声引入分布偏移，作者采用了特殊的纠偏技术（Stochastic Interpolant Correction），确保带有随机扰动的去噪过程仍能贴合原有的动作流分布。

性能战绩：全量微调的力量

在多项极具挑战性的任务中，OGPO 展现了统治级的表现：

采样效率：在 Robomimic 的 Square 和 Transport 任务中，OGPO 到达 SOTA 成功率的速度比 DPPO 快了整整一个数量级（10x）。
克服初始极差的策略：即使初始策略是通过行为克隆（BC）得到的、成功率只有 50% 的“残次品”，且在线训练时不给模型看任何专家数据，OGPO+ 依然能将其推向近乎 100% 的成功率。

实验结果对比

深度洞察：为什么全量微调优于残差更新？

如图 13 所示，通过 UMAP 可视化可以发现，单纯的行为克隆（BC）常陷入单一模态（Mode-seeking）。当环境发生变化需要新行为时，残差学习（EXPO）只能在原有分布附近微调。而 OGPO 展现了“流形扩张”（Manifold Expansion）的能力。

它利用 Q 函数引导整个生成链去探索高价值区域，这使得策略不仅能找回丢失的模态，还能学到比人类演示更高效、更快速的轨迹策略（Execution Efficiency）。

探索行为可视化

总结与启示

OGPO 成功的原因可以总结为：离线 Critic 提供全局视野（解决采样问题），在线 PPO 提供稳定动作提取（解决生成质量问题）。

局限性：尽管 OGPO 在稀疏奖励的高精度任务中表现卓越，但在某些密集奖励（Dense-reward）任务中，全量微调的过度表达能力可能导致过度拟合或速度下降。此外，如何在超大规模动作维度（如 24-DoF 机械手）下进一步提升稳定性仍是未来的课题。

对于实践者来说，OGPO 提供的不仅是一个算法，更是一种范式：在生成式模型时代，充分利用“计算廉价、采样昂贵”的非对称性，是让机器人自主进化的关键。

发现相似论文

试试这些示例

查找最近其他试图解决 Transformer 或生成式模型在强化学习中由于反向传播梯度爆炸或不平滑导致训练不稳定的论文。
哪篇论文最早提出了双层 MDP (Bi-level MDP) 的概念用于描述扩散策略，本文在解耦该结构方面有何本质创新？
有哪些研究将类似 GRPO 的组相对优势估计应用到了除大语言模型 (LLM) 之外的连续动作控制任务中？

OGPO：解耦“想象”与“现实”，实现生成式控制策略的高效微调

1. TL;DR

2. 痛点深挖：为什么 GCP 的全量微调这么难？

3. 核心机制：OGPO 的“断后”艺术

3.1. 1. 双层 MDP 的解耦 (Bi-level MDP Severing)

3.2. 2. 零阶优化 (Zeroth-order Optimization)

3.3. 3. ODE-to-SDE 的纠偏算法

4. 性能战绩：全量微调的力量

5. 深度洞察：为什么全量微调优于残差更新？

6. 总结与启示