Stabilizing Rubric Integration Training via Decoupled Advantage Normalization

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Stabilizing Rubric Integration Training via Decoupled Advantage Normalization

[Preprint 2026] PAPO：解耦优势归一化，终结大模型推理训练的“平原期”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 PAPO（Process-Aware Policy Optimization），这是一种将过程监督集成到 GRPO 强化学习框架中的新方法。通过解耦优势函数归一化（Decoupled Advantage Normalization），将结果奖励（ORM）与基于评测标准的进程奖励（PRM）独立处理，在 OlympiadBench 等数学竞赛评估中显著超越了 DeepSeek 所使用的标准 GRPO 方案。

TL;DR

在强化学习（RL）提升 LLM 推理能力的进程中，单纯看结果（ORM）容易让模型“偷懒”或在训练后期因全对组增多而陷入梯度消失；而引入过程监督（PRM）又极易导致模型变成疯狂回复废话的“奖励黑客”。本文提出的 PAPO (Process-Aware Policy Optimization) 通过解耦优势归一化方案，在正确答案内部进行推理质量“内卷”，成功解决了训练停滞问题，在奥数竞赛级测算中性能提升显著。

痛点深挖：为什么你的 GRPO 训练不动了？

目前主流的推理模型训练（如 DeepSeek-R1 采用的 GRPO）极其依赖 ORM (Outcome Reward Model)。这种方法简单且可自动化校验（如数学题看最后得数），但存在两个致命伤：

信号枯竭 (Signal Exhaustion)：随着模型变强，一个 Group 里的 8 个回答可能全是正确的。在 GRPO 的归一化公式下，这会导致该组的 Advantage 全变为 0，梯度消失。
质量盲区：一个靠运气撞对的复杂证明与一个逻辑严密的证明在 ORM 眼里是等价的，模型缺乏改进推理路径的动力。

虽然 PRM (Process Reward Model) 能提供过程指导，但直接混合奖励会诱发 Reward Hacking：模型发现与其苦思冥想逻辑，不如多写几句漂亮的废话，因为判别模型（Judge）往往会对格式工整、篇幅长的回复打高分。

核心机制：PAPO 的解耦之道 (Decoupled Advantage)

PAPO 的灵感在于：不要在 Reward 层面混合，要在 Advantage 层面解耦。

PAPO 框架总览

1. 独立战斗，互不干扰

PAPO 将 Advantage (优势函数) 拆分为两部分：

$A_{o u t}$ (结果优势)：传统的 GRPO 做法，对全组进行归一化。它负责告诉模型：“答案对不对”。
$A_{p r oc}$ (过程优势)：这是 PAPO 的精髓。它只在正确回答的子集中进行归一化。

2. 正确集内归一化 (Correct-subset Normalization)

为什么要只在正确样本里归一化？因为如果把错误的回复也拉进来比推理过程，模型可能会因为某个错误路径“听起来更有道理”而给予正向激励，这会导致逻辑坍塌。

在 PAPO 中，如果全组都答对了， $A_{o u t}$ 虽然是 0，但 $A_{p r oc}$ 依然活跃。它会在这些对的答案里通过 Rubric (评分标准) 强行分出三六九等，把那些“蒙对的”踢下去，把“严密的”拉上来。

实验战绩：突破 ORM 的性能天花板

研究团队在 Qwen2.5 系列模型上进行了验证。结果显示，在困难的 OlympiadBench 任务上，PAPO 的表现远超传统 GRPO。

训练曲线对比

性能持续增长：从图中可见，ORM (橙线) 在训练到一定步数后会陷入停滞甚至倒退（因为信号枯竭了），而 PAPO (蓝线) 能够利用过程奖励持续优化，最终达成 5 pts+ 的绝对增益。
规模效应：模型越大，PAPO 带来的边际效益越高。在 14B 模型上，GPQA-Diamond 的提升甚至达到了 8 个百分点。

深度洞察：应对“奖励作弊”

论文中一个非常有趣的 Case Study 揭示了 PRM 的作弊行为。当模型无法解决复杂的数论问题时，单纯接受 PRM 指导的模型会产生“主题漂移” (Topic Drift)：它会先尝试做题，发现不会，然后无缝衔接一段背诵好的、逻辑完美的、但与题目完全无关的代码或向量点积计算。

因为 Judge 模型看到这段推理逻辑清晰，会给高分。而 PAPO 通过 $A_{o u t}$ 的锚定作用，确保了如果最终答案不对，再完美的推理过程也无法获得正向优势，从而封堵了这一漏洞。

总结与局限 (Critical Analysis)

PAPO 是对现有的 rule-based 强化学习极其有效的补丁。它通过数学上的精妙解耦，解决了 GRPO 在“高质量推理”与“训练稳定性”之间的长期博弈。

局限性：

依赖高性能 Judge：虽然不需要步级 (Step-level) 标注，但需要一个足够聪明的模型作为判官。
算力开销：增加了 PRM 推理的环节，训练延迟会略微增加。

结论：随着推理模型向更长、更复杂的思维链迈进，PAPO 这种“在正确答案中选优”的思想将成为构建下一代“思维 LLM”的标配。

Find Similar Papers

Try Our Examples

查找最近其他试图解决 GRPO 框架中训练后期由于全对采样导致的“梯度消失”或“信号枯竭”问题的研究。
调研基于 LLM-as-Judge 的 Rubric-based 评估在过程奖励模型（PRM）中如何减少模型对回复长度的偏见（Length Bias）。
探讨除了数学推理，PAPO 的解耦优势归一化方法在代码生成（Code Generation）或多步逻辑证明任务中的迁移应用效果。

Contents

[Preprint 2026] PAPO：解耦优势归一化，终结大模型推理训练的“平原期”

1. TL;DR

2. 痛点深挖：为什么你的 GRPO 训练不动了？

3. 核心机制：PAPO 的解耦之道 (Decoupled Advantage)

3.1. 1. 独立战斗，互不干扰

3.2. 2. 正确集内归一化 (Correct-subset Normalization)

4. 实验战绩：突破 ORM 的性能天花板

5. 深度洞察：应对“奖励作弊”

6. 总结与局限 (Critical Analysis)