本文提出了 OPSDC (On-Policy Self-Distillation for Reasoning Compression),一种通过在线策略自蒸馏实现推理模型压缩的方法。该方法在 Qwen3-8B/14B 模型上实现了 57-59% 的 Token 削减,并在 MATH-500 榜单上将准确率提升了 9-16 个百分点,达到 SOTA 水平。
TL;DR
传统观点认为,推理链(CoT)越长,模型思考越深。但本文提出的 OPSDC (On-Policy Self-Distillation for Reasoning Compression) 颠覆了这一认知。研究发现,推理模型输出的很大一部分是“噪声”,这些噪声会通过 Compounding Error(复合错误) 损害精度。通过简单的在线策略自蒸馏,Qwen3 模型在减少 60% Token 的同时,MATH 准确率反而飙升了 16%。
1. 痛点:被“过度思考”绑架的推理模型
当前的 SOTA 推理模型(如 OpenAI o1, DeepSeek-R1)在处理“2+2=?”时,有时也会耗费数百个 Token 进行自我怀疑和冗余验证。
目前工业界尝试的压缩方案都有明显缺陷:
- RL 方法:需要 Ground-truth 答案作为奖励。如果没有正确答案,模型就不知道压缩是否过头,且容易导致 Entropy Collapse(熵塌陷),使模型变得死板。
- SFT 方法:强制模型模仿他人的简短推理,这会导致严重的 Distribution Shift(分布偏移),模型会“忘记”自己的推理逻辑。
- 静态 Prompt:一旦去掉“请简短回答”的提示词,模型立刻打回原形。
2. 核心机制:让模型做自己的老师
OPSDC 的核心逻辑极其优雅:模型本身就知道如何简洁,它只是需要“许可”。
2.1 架构设计
- Teacher (π<sub>θ̄</sub>):原始模型 +
Concise instruction(简洁指令)。 - Student (π<sub>θ</sub>):原始模型(无额外指令)。

2.2 为什么用反向 KL 散度?
作者坚持使用 Reverse KL 而非 Forward KL。
- 物理直觉:Reverse KL 具有 Mode-seeking(寻模) 特性。它让学生模型只在自己生成的 Token 分布内进行优化。
- 实验反馈:使用 Forward KL 会导致准确率出现锯齿状崩溃,而 Reverse KL 能够提供天然的自正则化,保持训练稳定。
3. 难度自适应:智能的调速器
OPSDC 最迷人的特性在于它不需要人为设定压缩率或训练难度分类器。

- 简单问题(如基础代数):教师模型会生成极短的路径,产生强大的 KL 信号,驱动学生深度压缩(约 60%)。
- 困难问题(如 AIME 竞赛题):即使是带了简洁指令的老师也需要详尽推理,此时 KL 信号微弱,模型自动保留了必要的逻辑迭代(仅压缩 35%)。
4. 实验战绩:压缩即增强
在 Qwen3 系列模型上的实验结果堪称惊艳:
| 指标 | Base Model (14B) | OPSDC (14B) | 提升/压缩 | | :--- | :--- | :--- | :--- | | MATH-500 Acc | 70.0% | 86.1% | +16.1% | | AIME 2024 Acc | 65.8% | 76.3% | +10.5% | | 平均 Token 数 | 3,872 | 1,686 | -56.5% |

为什么变准了?
作者提出了一个概率模型解释:每个冗余的 Token 都是一个潜在的错误引入点。 一旦推理链中出现一个细微的逻辑歪曲,后续 Token 就会在错误的基础上不断累积(Compounding Error)。通过剔除这些“废话”,我们实际上是移除了逻辑链中的不稳定因素。
5. 深度洞察
- 无需 Truth 的监督:OPSDC 证明了纯粹的 Behavioral Supervision(行为监督) 也能提升逻辑精度。这意味着在没有标准答案的领域(如法律分析、创意写作流程优化),该方法同样适用。
- 反直觉的结论:冗长不等于严谨。模型在经过 OPSDC 训练后,不再频繁进行无谓的“自我怀疑(Wait... let me re-check)”,而是更倾向于一次性走通正确路径。
6. 局限与展望
尽管在数学领域表现优异,但在需要博弈思维或极其发散的探索性任务中,极致的压缩是否会损害模型的创造力仍待观察。未来的研究方向可能在于如何界定“必要冗余”与“纯粹噪声”的边界。
总结:OPSDC 告诉我们,AI 的进化不一定要靠堆算力和堆 Token。有时候,教会模型“闭嘴”,它反而能想得更清楚。
