Learn Hard Problems During RL with Reference Guided Fine-tuning

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Learn Hard Problems During RL with Reference Guided Fine-tuning

[2026] ReGFT：利用参考引导微调突破数学推理强化学习的“零奖励”瓶颈

总结

问题

方法

结果

要点

摘要

本文提出了 Reference-Guided Fine-tuning (ReGFT)，一种旨在解决数学推理任务中强化学习 (RL) 奖励稀疏问题的预训练方法。通过利用人类参考答案作为指导，合成符合模型分布的高质量推理轨迹，ReGFT 在 AIME 和 Beyond-AIME 等挑战性 benchmark 上显著提升了模型的初始能力和 RL 训练上限。

TL;DR

在强化学习（RL）大幅提升大模型推理能力的今天，如何让模型学会“它本来完全不会”的难题仍是巨大挑战。本文提出的 Reference-Guided Fine-tuning (ReGFT) 通过将人类参考答案转化为模型自有的推理轨迹，在 RL 开启前显著拔高了模型的能力边界，成功解决了数学推理中因采样不到正确答案导致的奖励稀疏（Reward Sparsity）问题。

核心速览

定位：针对数学推理任务的 RL 预热（Pre-RL）优化方案。
痛点：难题采样不出正确答案 $\to$ 奖励为零 $\to$ RL 停滞。
方案：用 Partial Reference (部分参考) 引导模型生成符合自身风格的正确轨迹。
成效：在 AIME 系列榜单上，ReGFT 初始化后的 RL 收敛更快、上限更高。

痛点深挖：为什么强行 RL 和直接 SFT 都不够好？

在当前以 DeepSeek-R1 或 OpenAI o1 为代表的推理模型范式中，带验证奖励的强化学习 (RLVR) 是核心。但它存在一个致命的前提：模型必须能通过采样产生“正确”的样本。

RL 的局限性（Reward Sparsity）：对于 Olympiad 级别的难题，小参数量模型或初始模型可能在 1000 次采样中都写不对一个答案，RL 因此无法获得任何梯度信号。
SFT 的局限性（Distribution Mismatch）：现有数据集通常附带人类编写的 CoT 答案。但人类的跳跃性思维、特定解题套路与 LLM 的推理空间并不对齐。强行模仿人类答案会导致模型在推理时变得“僵硬”，泛化能力差。

方法论详解：ReGFT 的解题思路

ReGFT 的核心直觉是：借人类的力，走模型自己的路。

1. 参考引导采样 (Reference-Guided Sampling)

作者不直接让模型学习 human-written CoT，而是：

为难题提供前 80% 的人类解题步骤作为 Hint。
要求模型在这个 Hint 的基础上，用它自己的语言风格完成剩下的推理逻辑。
为什么要这么做？ 这样生成的轨迹（Trajectories）既保证了正确性（有参考引导），又符合模型的固有概率分布（由模型自生成）。

2. 模型架构与流程

ReGFT 流程对比图 上图展示了 ReFT（仅靠自探索）与 ReGFT（参考引导）的区别。ReGFT 通过参考引用，成功找回了那些被标记为“无法解决”的硬核题目数据。

实验与结果：全方位的性能碾压

1. RL 训练曲线对比

实验采用了 Qwen3-4B 作为基座，在 OmniMath 数据集上训练。结果显示，ReGFT 初始化的模型在 RL 开启那一刻就表现出极高的起点，并最终在 AIME'24/25 上全面超越了直接从 raw 模型开始的 RL 以及经典的 ReFT。

实验结果对比 可以看到，ReGFT (红色曲线) 不仅收敛速度极快，在 AIME 2025 等高难度任务上的最终精度也显著更高。

2. 推理侧缩放（pass@k）

一个成功的 RL 应该让模型在增加采样次数（Test-time compute）时性能持续增长。

ReFT 的问题：往往只在 $k$ 很小时有效，随 $k$ 增大性能趋于饱和。
ReGFT 的优势：在不同的 $k$ 取值下均保持领先（如下图），这说明 ReGFT 真正扩展了模型的“能力疆域”，而不仅仅是加强了某种特定解法的概率。

pass@k 曲线

深度洞察：为什么“模型自生成”如此重要？

本文的一组消融实验（Ablation Study）给出了关键结论：直接在 Raw Human Solution 上微调的效果最差。 这背后的物理直觉是：LLM 像是一个在特定流形（Manifold）上推理的机器，人类的答案往往在这个流形之外。ReGFT 的作用是利用参考答案作为“锚点”，将正确答案生拉硬拽进模型自己的流形空间内，让模型“听得懂、学得会”。

总结与未来展望

ReGFT 提供了一个简单而有效的见解：解决奖励稀疏，不需要复杂的 RL 算法魔改，只需要在数据合成阶段更聪明一点。这种“半监督自引导”的思路对于训练参数量较小（如 1.5B, 7B）但又想挑战 Olympiad 级别难题的模型至关重要。

局限性：

依赖于高质量的人类参考答案，对于完全没有参考资料的长尾领域仍有困难。
目前的验证机制仍基于规则（Rule-based），对于需要深层数学证明的开放性问题，评估可能存在误差（False Negative）。

未来，结合这一思路与更强大的 Test-time Scaling 策略（如 Search），或许能进一步逼近人类数学家的思维巅峰。

发现相似论文

试试这些示例

查找最近其他试图通过外部知识引导或提示增强来解决强化学习中奖励稀疏问题的论文。
哪篇论文最早对比了人类推理分布与模型推理分布之间的差异，以及这种差异对 SFT 效果的具体影响？
有哪些研究探讨了将这种参考引导生成（Reference Guided Generation）应用到代码生成或逻辑证明等其他长链推理领域？

[2026] ReGFT：利用参考引导微调突破数学推理强化学习的“零奖励”瓶颈

1. TL;DR

2. 核心速览

3. 痛点深挖：为什么强行 RL 和直接 SFT 都不够好？

4. 方法论详解：ReGFT 的解题思路

4.1. 1. 参考引导采样 (Reference-Guided Sampling)

4.2. 2. 模型架构与流程

5. 实验与结果：全方位的性能碾压

5.1. 1. RL 训练曲线对比

5.2. 2. 推理侧缩放（pass@k）

6. 深度洞察：为什么“模型自生成”如此重要？

7. 总结与未来展望