Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Scholar Search

Scholar QA

Pricing

TrueCite

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

[Microsoft Research] 为何自蒸馏会“毒害”大模型的数学推理能力？

Summary

Problem

Method

Results

Takeaways

Abstract

本文探讨了自蒸馏（Self-Distillation）对大语言模型（LLMs）推理能力的影响，提出了 Epistemic Verbalization（认识论言语化） 缺失是导致性能下降的关键因素。研究发现，虽然自蒸馏在某些领域能缩短推理链并提升效率，但在数学推理中往往会导致模型过度自信，进而损害 OOD（分布外）泛化表现。

TL;DR

自蒸馏（Self-Distillation）通常被视为一种让模型“更聪明、更高效”的炼金术。然而，微软亚洲研究院（MSRA）等机构的最新研究揭示了一个令人警惕的现象：在数学推理领域，自蒸馏虽然让模型学会了“快准狠”地给出答案，却因剥夺了模型表达“犹豫”（Epistemic Verbalization）的能力，导致其在面对未见过的问题时泛化能力剧降（最高跌幅达 40%）。

核心直觉：上帝视角带来的“盲目自信”

在自蒸馏框架中，Teacher 模型通常可以访问标准答案（GT），从而产生极其简洁且自信的推理链。Student 模型被要求模仿这种“上帝视角”下的推理风格。

作者的深刻洞察是：推理过程中的 "Wait", "Hmm", "Actually" 等看似废话的词汇（Epistemic Tokens），实际上是模型在处理不确定性、尝试不同假设、进行自我纠错的物理体现。当 Student 模仿 Teacher 这种不需要纠错的简洁风格时，它在推理阶段就失去了“思考”的中间支架。

实验架构：信息丰富度与性能的对决

作者设计了一套严密的实验体系，通过改变 Teacher 的 Conditioning Context（上下文约束）来控制信息量，观察对 Student 的影响。

信息丰富度对推理行为的影响 （图 1：在化学领域自蒸馏表现良好，而在数学领域，其性能随着推理长度的缩短而发生崩塌）

关键发现：

信息单调性：Teacher 获得的信息越丰富（如包含详细的 <think> 过程），产生的推理轨迹就越少出现不确定性标记。
SFT 的假象：即便只在完全正确的推理路径上进行 SFT，如果这些路径被过度压缩，模型在 OOD 测试中的表现依然会大幅下滑。

为什么数学任务更特殊？

研究揭示了 任务覆盖度（Task Coverage） 的关键作用：

窄域任务（如化学实验）：问题模式固定，模型通过自蒸馏学会了特定模式的捷径，简洁性代表了效率。
博大精深的数学：任务覆盖面广，泛化要求极高。在这种场景下，压缩推理路径等同于删除了处理复杂逻辑所需的“内存位”。

模型架构与结果对比 （图 2：DeepSeek-R1-Distill 和 Qwen3 的实验结果，显示自蒸馏 SDPO 后的准确率明显低于基线，而 GRPO 通过增加推理长度提升了性能）

深度洞察：Epistemic Tokens 的价值

在表 1 中，作者展示了不同引导设置下的 Epistemic Token Count。当模型完全自主生成时，这些标记的数量最高。这说明：优秀的推理模型本质上是“多疑”的。它们需要这些标记作为锚点，来平衡不同的假设。

自蒸馏算法（如 SDPO）强制模型消除这些标记，本质上是在进行一种“有损压缩”。对于简单的任务，这种压缩去处的是冗余；对于复杂的 OOD 任务，这种压缩去除的是 Inductive Bias 的核心灵活性。

结论与启示

这项研究对当前的 LLM Post-training 具有重要的警示意义：

拒绝病态简洁：不要一味追求更短的 Reasoning Trace，简洁有时是泛化能力的杀手。
保护“犹豫”：在设计 Reward Function 时，应当奖励那些能体现模型自我修正逻辑的表达，而非仅仅奖励最终答案的正确性。
Teacher 的局限：自蒸馏中的 Teacher 不应表现得像个“全知全能的先知”，由一个具备适度不确定性的 Teacher 引导出的 Student 可能更具鲁棒性。

局限性与未来展望

目前的研究主要集中在数学领域，未来的挑战在于如何在保持模型高效推理的同时，动态地调整其 Epistemic Verbalization 的密度。如何找到“冗余废话”与“认知必要步骤”之间的精确界限，将是下一代高性能推理模型的关键。

Find Similar Papers

Try Our Examples

查找最近发表的、探讨大语言模型推理过程中的“自我修正”（Self-correction）机制及其与推理长度关系的论文。
哪篇论文最早基于信息论定义了 LLM 的 Epistemic Verbalization 概念，本文在这一理论基础上做了哪些数学扩展？
有哪些研究在多模态或代码生成领域观察到了“简短回复”导致泛化能力下降的类似现象？

Contents

[Microsoft Research] 为何自蒸馏会“毒害”大模型的数学推理能力？

1. TL;DR

2. 核心直觉：上帝视角带来的“盲目自信”

3. 实验架构：信息丰富度与性能的对决

4. 为什么数学任务更特殊？

5. 深度洞察：Epistemic Tokens 的价值

6. 结论与启示

7. 局限性与未来展望