LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

[arXiv 2025] LongRLVR：破解长文本推理中的“定位梯度消失”困境

总结

问题

方法

结果

要点

摘要

本文提出了 LongRLVR，一种针对大语言模型（LLM）长文本推理的强化学习框架。该方法通过引入可验证的“上下文奖励”（Context Reward）来增强传统的“结果奖励”，在 RULER 和 LongBench v2 等基准测试中显著提升了模型在长上下文下的证据检索与推理能力。

TL;DR

尽管基于可验证奖励的强化学习（RLVR）在数学和编程领域取得了巨大成功（如 DeepSeek-R1），但在面对超长上下文时却显得力不从心。LongRLVR 指出，问题的核心在于“结果奖励”太稀疏，模型在长达数万 token 的海洋中定位证据时会出现梯度消失。通过引入可验证的上下文奖励，LongRLVR 成功让 14B 模型在长文本基准测试中超越了许多 70B 级别的巨物。

1. 痛点：为什么 LLM 在长文本强化学习中会“迷失”？

在传统的 RLVR 中，我们告诉模型：“如果你最后的答案对了，就给你奖金。”这在推理路径明确的任务中有效，但在长文本场景下（如下表所示），模型必须先完成上下文定位（Contextual Grounding），即从 $N$ 个文本块中找到关键的那几个，才能正确回答。

作者发现，如果只奖励最终答案，定位过程的梯度会呈指数级衰减。直观理解：如果模型没有找全所有证据（例如需要 3 个证据，它只找对了 2 个），它最终的答案依然可能是错的，从而得不到任何奖励。这导致模型在训练初期根本不知道该往哪个方向优化。

模型架构与对比 图 1：Naive RLVR 在训练一段时间后，上下文召回率（绿色）陷入停滞，导致准确率（蓝色）也触及天花板。

2. Methodology：LongRLVR 的核心机制

LongRLVR 的核心思想是将原本隐式的定位过程显性化、可验证化。

2.1 显式定位公式

作者将策略 $π_{h} e t a$ 分解为两个阶段：

Grounding Head: 负责选出相关文本块 $Z$ 。
Answer Head: 根据 $Z$ 生成最终答案 $y$ 。

模型不再直接给出答案，其输出格式变为：<useful chunks> [Chunk ID] </useful chunks> <answer> [Final Answer] </answer>。

2.2 可验证上下文奖励 (Verifiable Context Reward)

为了解决梯度消失，作者引入了基于 $F_{β}$ -score 的奖励 $r_{c t x}$ 。它不仅看答案对不对，更看模型选出的 Chunk ID 对不对：

不透明的 Synergistic Reward: 只有在答案正确时，才赋予高定位奖励。
密集的 Unconditional Reward: 只要定位找得好，即便答案还没理顺，也给予基础奖励。

这种设计确保了哪怕在模型还不会做复杂推理的初期，也能通过“找对证据”获得正向反馈。

流程演示 图 2：LongRLVR 的输出范式：先进行证据定位，再进行逻辑推理。

3. 实验结果：小模型的逆袭

LongRLVR 在 LLaMA-3.1 和 Qwen2.5 系列模型上展现了惊人的泛化能力。

3.1 跨级屠榜

在 LongBench v2（处理高达 128K 文本）中：

Qwen2.5-14B-LongRLVR 得分为 46.5，不仅远超其 SFT 版本（39.6），甚至击败了比它大 5 倍的 Qwen2.5-72B (43.5)。
即便是 8B 的 LLaMA，在经过 LongRLVR 训练后，其长文本推理能力也显著优于 70B 的 LLaMA-3.1 原始模型。

3.2 深入拆解：奖励模块的必要性

作者通过消融实验验证了“上下文奖励”与“结果奖励”的协同作用：

只有 Context Reward：模型召回率极高，但不会推理，导致下游任务得分下滑。
只有 Answer Reward：模型在训练早期就因为找不到证据而导致优化停滞。
两者结合（LongRLVR）：实现了最稳定的性能爬升。

实验数据对比 表 1：各模型在 RULER, LongBench v2, LongReason 上的性能全纪录。

4. 深度洞察与总结

LongRLVR 的成功带给我们三点重要启示：

优化路径重于参数规模：长文本能力的缺失往往是优化问题，而非模型理解力问题。
验证是推理的基石：正如数学题中步骤分很重要，长文本推理中“找到证据”这一中间步骤必须是可观测、可奖励的。
合成数据的价值：高质量、带有 Ground-truth 证据标注的合成数据（如本文提到的 46K 样本）是训练此类模型的核心资产。

局限性：虽然 LongRLVR 提升了推理能力，但由于增加了“证据输出”环节，推理时的 Token 消耗会有所增加。未来的研究可以探索如何在保持这种密集奖励信号的同时，精简模型的中间思考过程。

主编点评：在 DeepSeek-R1 掀起的强化学习热潮下，此文精准击中了 RL 在长文本领域的“软肋”。它不仅提供了扎实的数学证明，还给出了一套可操作、可验证的闭环方案，是长文本对齐（Alignment）领域的重要工作。

发现相似论文

试试这些示例

查找最近其他通过引入中间奖励（Intermediate Rewards）或密集监督信号来优化大语言模型长文本处理能力的论文。
哪篇论文最早在 RL 中探讨了稀疏奖励导致的梯度消失问题，LongRLVR 在数学推导上与其有哪些继承与创新？
有哪些研究探讨了将这种可验证的上下文定位方法应用到多模态（如视频理解、大规模图像集合检索）的强化学习任务中？

[arXiv 2025] LongRLVR：破解长文本推理中的“定位梯度消失”困境

1. TL;DR

2. 1. 痛点：为什么 LLM 在长文本强化学习中会“迷失”？

3. 2. Methodology：LongRLVR 的核心机制

3.1. 2.1 显式定位公式

3.2. 2.2 可验证上下文奖励 (Verifiable Context Reward)

4. 3. 实验结果：小模型的逆袭

4.1. 3.1 跨级屠榜

4.2. 3.2 深入拆解：奖励模块的必要性

5. 4. 深度洞察与总结