Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

[arXiv 2024] 稀疏即核心：RLVR 强化学习如何通过 1% 的 Token 改变重塑 LLM 推理逻辑

总结

问题

方法

结果

要点

摘要

本文对大语言模型在可验证奖励强化学习（RLVR）过程中的 Token 级分布变化进行了深度实证研究。通过对 Qwen2.5 等模型的分析，作者发现 RLVR 带来的性能提升并非源于对模型行为的全局改写，而是通过极少数（通常 < 10%）关键 Token 位置的精确重塑（Sparse and Targeted Refinement）来引导推理轨迹。

TL;DR

阿里 Qwen 团队的最新研究揭示了一个令人惊讶的事实：RLVR（基于可验证奖励的强化学习）对大模型的改造是极度“吝啬”且“精准”的。在推理任务中，RL 模型与 Base 模型在 90% 以上的位置行为几乎一致。然而，正是那不到 10% 的关键 Token 决策（Critical Decisions），像方向盘一样，将原本可能走偏的推理轨迹强行拉回了正确的路径。

1. 动机：RLVR 训练到底在改什么？

长期以来，我们知道 RLVR（如 DeepSeek 提出的 GRPO 或阿里自家的 DAPO）能显著提升模型的数学推理能力。但这种提升是全方位的性格重塑，还是局部的技能增强？

作者敏锐地发现，现有的评估（准确率、奖励值、KL 散度总和）太“糙”了。他们决定动用“手术刀”，在 Token 级探测分布偏移（Distributional Shift）。

2. 核心发现：极度稀疏的“手术刀式”微调

通过计算 Base 模型和 RL 模型在相同上下文下的 JS 散度，研究发现：

高度稀疏：在 SimpleRL 模式下，98% 的位置散度接近于 0。这意味着 RL 并没有教模型“重新做人”，大部分时候它只是在复读 Base 模型的预测。
位置集中：主要的分布改变集中在序列的开头（决定推理的大方向）和结尾（格式整理和确认答案）。
重分配而非创造：RL 很少给 Base 模型认为概率极低（<0.01）的 Token “翻案”。它所做的大多是在 Base 模型已经给出的前几个候选者（Top-k）中微调优先级。

模型架构与稀疏性可视化 上图展示了 RLVR 如何作为一种稀疏的轨迹转向机制工作。

3. 交叉采样：1% Token 的生死时速

为了证明这极少数“异见” Token 的功能性，作者设计了一个极具启发性的实验——交叉采样 (Cross-sampling)：

正向干预 (Forward)：让 Base 模型自己去写，但在遇到高散度位置时，强制换成 RL 模型的选词。
- 结果：仅替换 1.5% - 3.8% 的词，Base 模型的准确率就从 5% 暴涨到 RL 级别的 25% 甚至更高。
反向干预 (Reverse)：让 RL 模型去写，但在关键点强行塞入 Base 模型的原始选词。
- 结果：性能瞬间崩塌，直接跌回 Base 的水平。

实验结果对比 表 1 详细量化了替换少量 Token 后性能剧烈波动的现象。

4. 深度洞察：RLVR 与 SFT 的本质区别

研究对比了监督微调（SFT）和 RLVR。结果发现 SFT 更像是一柄“重锤”，它会更全局、更大幅度地改变 Token 的分布；而 RLVR 则显示出一种天然的“感性理性结合”——它保留了 Base 模型的普适语言能力，仅在涉及逻辑存亡的关头才发力。

5. 局限性与未来展望

尽管论文揭示了这种稀疏性特征，但为何 RL 会自发选择这种稀疏更新？这种选择是否意味着我们目前的 KL 惩罚项过于死板？

作者尝试利用这一发现，通过 散度加权优势信号 (Divergence-Weighted Advantages) 来指导训练。初步结果显示，给那些分布变化较大的 Token 增加学习权重，能进一步提升 AIME 榜单表现。

核心结论 (Takeaway)

RLVR 对大模型的提升不是“量变”引起“质变”，而是通过在关键节点进行微小的“质变”，导向了全局的正向结果。未来的 RL 训练可能会更加关注于寻找并优化这些“稀疏但致命”的关键位置，而不是在全序列上漫无目的地学习。

本文由资深学术技术主编重构。

发现相似论文

试试这些示例

查找其他最近试图解决大模型强化学习（RLVR）中训练信号稀疏性或 Token 级别分配问题的相关论文。
哪篇论文最早提出了概率重分配（Probability Reallocation）作为模型微调的机制，本文在何种程度上验证了其在推理任务中的有效性？
有哪些研究关注于如何通过识别“关键决策 Token”（Critical Tokens）来优化计算资源或加速 LLM 的推理生成？

[arXiv 2024] 稀疏即核心：RLVR 强化学习如何通过 1% 的 Token 改变重塑 LLM 推理逻辑

1. TL;DR

2. 1. 动机：RLVR 训练到底在改什么？

3. 2. 核心发现：极度稀疏的“手术刀式”微调

4. 3. 交叉采样：1% Token 的生死时速

5. 4. 深度洞察：RLVR 与 SFT 的本质区别

6. 5. 局限性与未来展望

6.1. 核心结论 (Takeaway)