Delightful Policy Gradient

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Delightful Policy Gradient

[Google DeepMind] Delightful Policy Gradient：重塑策略梯度，让模型从“惊喜”中加速学习

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Delightful Policy Gradient (DG)，这是一种改进强化学习中策略梯度估计的新方法。通过引入基于“惊喜度”（Action Surprisal）的 Sigmoid 门控机制，DG 在 MNIST 上下文老虎机、Transformer 序列建模及连续控制任务中均超越了 PPO 和 REINFORCE 等基线方法，实现了更优的收敛速度和扩展性。

TL;DR

传统的策略梯度方法（PG）在更新时只看“甜头”（Advantage），却忽视了“意外”（Surprisal）。Google DeepMind 提出的 Delightful Policy Gradient (DG) 通过一个简单的 Sigmoid 门控，让模型学会“珍惜好运”并“忽略低级失误”。这一改进不仅降低了方差，更从根本上纠正了梯度在难易任务间的分配偏差，在 Transformer 和连续控制任务中展现了极强的 Scaling 潜力。

1. 痛点：策略梯度为何总是“欺软怕硬”？

在深度强化学习中，优化器的更新方向（Direction）决定了学习效率。然而，标准策略梯度存在两个被长期忽视的缺陷：

单上下文中的“噪声放大”：当模型偶尔尝试了一个它平时绝不会做的错误动作（低概率负优势），产生的梯度向量会异常巨大，将模型拉离正确轨道。
多上下文中的“分配不均”：在同一个 Batch 里，模型倾向于在已经学得很好的任务上投入更多梯度预算，而真正需要攻克的难题却因权重不足而进度缓慢。

作者指出，这不仅仅是采样方差的问题（Variance reduction 无法彻底解决），而是 期望梯度方向本身就偏离了最优的学习路径。

2. 核心直觉：什么是“愉悦度” (Delight)？

为了修正上述偏差，作者引入了 Delight（$\chi$） 的概念： $\chi = ext{Advantage} imes ext{Action Surprisal}$ 其中 Surprisal 是 $-\log \pi(A|H)$。

意外的成功 (Breakthrough)：低概率动作却拿到了正奖励。门控开启（$\sigma \approx 1$），全力保留梯度。
罕见的失败 (Blunder)：低概率动作拿到了负奖励。门控关闭（$\sigma \approx 0$），忽略此噪声。

模型架构与系数对比 图 1：不同策略下权重 $\omega$ 随优势值 $U$ 的变化。可见 DG 对罕见成功和罕见失败的处理是非对称的。

3. 方法论详解：一行代码的降维打击

DG 的实现极其简洁，几乎是标准的“Drop-in replacement”。它在更新量中插入了一个 Sigmoid 因子： $$\Delta heta \propto \sum \sigma( ext{Delight}) \cdot ext{Advantage} \cdot abla \log \pi$$

这种机制在数学上可以被视为一种局部熵正则化门控。它迫使梯度向“交叉熵预言机”（Supervised Cross-Entropy Oracle）靠拢，即平等地对待每一个任务上下文，而不是被简单任务牵着鼻子走。

4. 实验战绩：从 MNIST 到 Transformer 的全面碾压

4.1 MNIST 诊断测试

在将 MNIST 视为 Contextual Bandit 的实验中，DG 显著快于 PG，并跨越了 PG 的物理性能上限。即使 PG 使用无限样本，其效果也无法达到 DG 在单样本下的表现，这证明了 DG 确实优化了梯度方向本身。

MNIST 实验结果对比 图 2：在没有标签只有奖励的情况下，DG 补全了 PG 与监督学习（CE）之间 50% 的差距。

4.2 Transformer 序列扩展性

在挑战性的 Token Reversal 任务（要求 Transformer 逆序生成字符）中，随着序列长度 $H$ 和词表大小 $M$ 的增加，传统方法如 PPO 迅速失效。而 DG 展现出了更优的幂律扩展特性（Power-law scaling），优势随任务难度指数级放大。

Token Reversal 学习曲线 图 3：在 Transformer 任务上，DG 的收敛速度和最终精度远超 PPO。

5. 深度洞察与总结

为什么 DG 有效？ 从算法直觉上看，DG 赋予了模型一种“自省”能力：如果我做错了一件我本来就知道不该做的事，别大惊小怪；如果我意外做对了一件我本以为会失败的事，那才是真正的价值所在。

局限性与未来展望：

连续动作空间的敏感度：在连续控制任务中，Surprisal 的计算依赖于概率密度，可能需要剪切（Clipping）或白化（Whitening）处理。
超参数倾向：虽然文中统一使用 $\eta=1$，但在极大规模或极稀疏奖励的场景下，温度系数的动态调节可能仍是必要的。

总结： Delightful Policy Gradient 提供了一个极简且强大的视角：策略梯度学习中，权重分配与方向选择同等重要。它不仅是一个更稳健的优化器，更为未来超大规模模型（如 LLM 的强化学习微调）提供了更具扩展性的梯度加权新基准。

Find Similar Papers

Try Our Examples

查找最近其他试图通过重新加权训练样本或修改损失函数权重来解决 Transformer 学习中“简单示例主导梯度”问题的论文。
哪篇论文最早讨论了策略梯度方法中的探索噪声与梯度方向失真问题，本文提到的“Delight”概念与传统的固有动机（Intrinsic Motivation）有何理论关联？
有哪些研究将类似 DG 的非对称门控机制应用到了大语言模型（LLM）的 RLHF（人类反馈强化学习）阶段以提高对齐效率？

Contents

[Google DeepMind] Delightful Policy Gradient：重塑策略梯度，让模型从“惊喜”中加速学习

1. TL;DR

2. 1. 痛点：策略梯度为何总是“欺软怕硬”？

3. 2. 核心直觉：什么是“愉悦度” (Delight)？

4. 3. 方法论详解：一行代码的降维打击

5. 4. 实验战绩：从 MNIST 到 Transformer 的全面碾压

5.1. 4.1 MNIST 诊断测试

5.2. 4.2 Transformer 序列扩展性

6. 5. 深度洞察与总结