WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
DGPO:突破长链条推理瓶颈,重分配大模型的“逻辑功劳”
总结
问题
方法
结果
要点
摘要

本文提出了 DGPO (Distribution-Guided Policy Optimization),一种无需 Critic 网络的大语言模型强化学习对齐框架。该方法通过引入 Hellinger 距离和熵门控机制,将序列级的粗粒度奖励动态分配至 Token 级,在 AIME 2024 等数学推理任务中刷新了 SOTA 纪录。

TL;DR

在强化学习(RL)对齐领域,如何让模型知道长篇大论中哪一步才是“神来之笔”?来自北大、上交和清华的研究团队提出了 DGPO (Distribution-Guided Policy Optimization)。它摒弃了容易导致训练崩溃的 KL 散度,转而使用有界的 Hellinger 距离 结合 熵门控机制,将粗糙的整句奖励精准重分配给关键 Token,在 AIME 数学竞赛测试中展现了卓越的推理提升。

痛点深挖:被平庸化的“神来之笔”

当前的 LLM 强化学习框架(如 DeepSeek 的 GRPO)虽然提升了效率,但面临两个致命伤:

  1. 信用分配模糊 (Coarse Credit Assignment):如果你解对了一道复杂的数学题,GRPO 会给这几千个 Token 全体发奖。但事实上,只有中间那两行关键的公式推导才是成功的核心,其他的连接词(如 "Therefore", "We take")完全是陪衬。
  2. 保守的 KL 惩罚 (Mode-seeking Conservatism):为了防止模型跑偏,传统方法使用 KL 散度作为惩罚。然而 KL 是无界的,一旦模型想尝试一种参考模型(Reference Model)没见过的创新解法,KL 惩罚就会瞬间爆炸,导致梯度尖峰,扼杀了模型的“好奇心”。

模型架构与对比图 图 1:GRPO 与 DGPO 的直观对比。DGPO 能动态识别并奖励关键 Token,而不仅仅是整句广播。

核心算法:分布偏差即指引

DGPO 的核心直觉在于:凡是模型在成功路径上产生的、相对于原始分布的显著偏差,往往就是关键的认知飞跃。

1. Hellinger 距离:安全地探索

不同于 Reverse KL,Hellinger 距离 的取值范围严格限定在 [0, 1] 之间。这意味着即使模型探索到了参考模型认为概率极低的区域,梯度也不会失控。它像是一个带有“安全护栏”的向导,鼓励模型在一定范围内大胆尝试新解法。

2. 熵门控 (Entropy Gating):过滤“自信的胡说”

大模型有时会以极高的自信输出错误的幻想(幻觉)。为了防止奖励这些“伪创新”,DGPO 引入了策略熵。只有当 分布偏差大 (di,t)模型本身面临不确定性 (Hi,t) 时,该步才会被认定为真实的逻辑探索。这种协同效应过滤了低熵的噪声。

3. 优势重分配 (Advantage Redistribution)

通过一个带有温度参数的 Softmax 归一化,DGPO 将序列级物理优势 转化为 Token 级的权重 ,公式如下: 这保证了梯度总量的平衡,但实现了“按劳分配”。

DGPO 计算流程图 图 2:DGPO 的计算流水线:利用策略自身的概率动态实现细粒度监控。

实验战绩:数学推理的新高度

在 AIME 2024 和 AIME 2025 两个极具挑战性的数学推理榜单上,DGPO 表现惊人。基于 Qwen2.5-32B 架构,DGPO 展现了比 DAPO 更强的性能增长曲线。

  • 高分表现:在 AIME 2024 上达到 60.0% 的 Avg@32 准确率。
  • 低成本:虽然实现了类似过程奖励模型(PRM)的效果,但 DGPO 相比 GRPO 仅增加了 3.6% 的耗时,内存占用几乎未变。因为它复用了 policy forward 时生成的 Logits,无需额外的 Value Network。

实验结果曲线 图 3:Qwen2.5-32B 在训练过程中的 AIME 准确率提升曲线。

深度洞察:可视化中的真相

论文的定性分析(图 4)非常有趣。背景色的深浅代表了权重 的大小。我们可以清晰地看到,在解题的数学推导核心步骤,权重显著加深;而在普通的语法填充词处,权重变浅。 权重分布可视化 图 4:Token 级信用分配可视化,深色部分即为被 DGPO 识别出的“关键决策点”。

总结与启示

DGPO 的成功告诉我们:强化学习中的“惩罚”不应该是僵化的约束,而是可以转化为进化的动力。 它巧妙地利用了模型在训练过程中的“认知偏差”和“不确定性”来反哺训练,无需昂贵的人工过程标注,也能让模型学会深度思考。

局限性:目前实验主要集中在数学领域。这种基于概率测度(Hellinger/Entropy)的分配方式在创意写作等“分布更发散、目标更模糊”的任务中是否依然有效,值得进一步探索。

发现相似论文

试试这些示例

  • 查找最近一年内其他尝试在无需 Critic 网络的情况下实现 Token 级信用分配 (Token-level credit assignment) 的强化学习对齐算法。
  • 哪篇论文最早探讨了由无界 KL 散度引起的强化学习梯度不稳定性问题,本文的 Hellinger 距离方案与其有何关联?
  • 调研除了数学推理领域外,是否有研究将类似 DGPO 的分布引导机制应用到代码生成或多轮对话等其他复杂推理任务中?
目录
DGPO:突破长链条推理瓶颈,重分配大模型的“逻辑功劳”
1. TL;DR
2. 痛点深挖:被平庸化的“神来之笔”
3. 核心算法:分布偏差即指引
3.1. 1. Hellinger 距离:安全地探索
3.2. 2. 熵门控 (Entropy Gating):过滤“自信的胡说”
3.3. 3. 优势重分配 (Advantage Redistribution)
4. 实验战绩:数学推理的新高度
5. 深度洞察:可视化中的真相
6. 总结与启示