DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

DGPO：突破长链条推理瓶颈，重分配大模型的“逻辑功劳”

总结

问题

方法

结果

要点

摘要

本文提出了 DGPO (Distribution-Guided Policy Optimization)，一种无需 Critic 网络的大语言模型强化学习对齐框架。该方法通过引入 Hellinger 距离和熵门控机制，将序列级的粗粒度奖励动态分配至 Token 级，在 AIME 2024 等数学推理任务中刷新了 SOTA 纪录。

TL;DR

在强化学习（RL）对齐领域，如何让模型知道长篇大论中哪一步才是“神来之笔”？来自北大、上交和清华的研究团队提出了 DGPO (Distribution-Guided Policy Optimization)。它摒弃了容易导致训练崩溃的 KL 散度，转而使用有界的 Hellinger 距离 结合 熵门控机制，将粗糙的整句奖励精准重分配给关键 Token，在 AIME 数学竞赛测试中展现了卓越的推理提升。

痛点深挖：被平庸化的“神来之笔”

当前的 LLM 强化学习框架（如 DeepSeek 的 GRPO）虽然提升了效率，但面临两个致命伤：

信用分配模糊 (Coarse Credit Assignment)：如果你解对了一道复杂的数学题，GRPO 会给这几千个 Token 全体发奖。但事实上，只有中间那两行关键的公式推导才是成功的核心，其他的连接词（如 "Therefore", "We take"）完全是陪衬。
保守的 KL 惩罚 (Mode-seeking Conservatism)：为了防止模型跑偏，传统方法使用 KL 散度作为惩罚。然而 KL 是无界的，一旦模型想尝试一种参考模型（Reference Model）没见过的创新解法，KL 惩罚就会瞬间爆炸，导致梯度尖峰，扼杀了模型的“好奇心”。

模型架构与对比图 图 1：GRPO 与 DGPO 的直观对比。DGPO 能动态识别并奖励关键 Token，而不仅仅是整句广播。

核心算法：分布偏差即指引

DGPO 的核心直觉在于：凡是模型在成功路径上产生的、相对于原始分布的显著偏差，往往就是关键的认知飞跃。

1. Hellinger 距离：安全地探索

不同于 Reverse KL，Hellinger 距离 的取值范围严格限定在 [0, 1] 之间。这意味着即使模型探索到了参考模型认为概率极低的区域，梯度也不会失控。它像是一个带有“安全护栏”的向导，鼓励模型在一定范围内大胆尝试新解法。

2. 熵门控 (Entropy Gating)：过滤“自信的胡说”

大模型有时会以极高的自信输出错误的幻想（幻觉）。为了防止奖励这些“伪创新”，DGPO 引入了策略熵。只有当 分布偏差大 (di,t) 且 模型本身面临不确定性 (Hi,t) 时，该步才会被认定为真实的逻辑探索。这种协同效应过滤了低熵的噪声。

3. 优势重分配 (Advantage Redistribution)

通过一个带有温度参数的 Softmax 归一化，DGPO 将序列级物理优势 $A_{i}$ 转化为 Token 级的权重 $w_{i, t}$ ，公式如下： $w_{i, t} = T_{i} \cdot \frac{e x p ( s _{i, t} / a u )}{\sum e x p ( s _{i, j} / a u )}$ 这保证了梯度总量的平衡，但实现了“按劳分配”。

DGPO 计算流程图 图 2：DGPO 的计算流水线：利用策略自身的概率动态实现细粒度监控。

实验战绩：数学推理的新高度

在 AIME 2024 和 AIME 2025 两个极具挑战性的数学推理榜单上，DGPO 表现惊人。基于 Qwen2.5-32B 架构，DGPO 展现了比 DAPO 更强的性能增长曲线。

高分表现：在 AIME 2024 上达到 60.0% 的 Avg@32 准确率。
低成本：虽然实现了类似过程奖励模型（PRM）的效果，但 DGPO 相比 GRPO 仅增加了 3.6% 的耗时，内存占用几乎未变。因为它复用了 policy forward 时生成的 Logits，无需额外的 Value Network。

实验结果曲线 图 3：Qwen2.5-32B 在训练过程中的 AIME 准确率提升曲线。

深度洞察：可视化中的真相

论文的定性分析（图 4）非常有趣。背景色的深浅代表了权重 $w_{i, t}$ 的大小。我们可以清晰地看到，在解题的数学推导核心步骤，权重显著加深；而在普通的语法填充词处，权重变浅。权重分布可视化 图 4：Token 级信用分配可视化，深色部分即为被 DGPO 识别出的“关键决策点”。

总结与启示

DGPO 的成功告诉我们：强化学习中的“惩罚”不应该是僵化的约束，而是可以转化为进化的动力。 它巧妙地利用了模型在训练过程中的“认知偏差”和“不确定性”来反哺训练，无需昂贵的人工过程标注，也能让模型学会深度思考。

局限性：目前实验主要集中在数学领域。这种基于概率测度（Hellinger/Entropy）的分配方式在创意写作等“分布更发散、目标更模糊”的任务中是否依然有效，值得进一步探索。

发现相似论文

试试这些示例

查找最近一年内其他尝试在无需 Critic 网络的情况下实现 Token 级信用分配 (Token-level credit assignment) 的强化学习对齐算法。
哪篇论文最早探讨了由无界 KL 散度引起的强化学习梯度不稳定性问题，本文的 Hellinger 距离方案与其有何关联？
调研除了数学推理领域外，是否有研究将类似 DGPO 的分布引导机制应用到代码生成或多轮对话等其他复杂推理任务中？

DGPO：突破长链条推理瓶颈，重分配大模型的“逻辑功劳”

1. TL;DR

2. 痛点深挖：被平庸化的“神来之笔”

3. 核心算法：分布偏差即指引

3.1. 1. Hellinger 距离：安全地探索

3.2. 2. 熵门控 (Entropy Gating)：过滤“自信的胡说”

3.3. 3. 优势重分配 (Advantage Redistribution)

4. 实验战绩：数学推理的新高度

5. 深度洞察：可视化中的真相

6. 总结与启示