Learning is Forgetting: LLM Training As Lossy Compression

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Learning is Forgetting: LLM Training As Lossy Compression

[ICLR 2025] 学习即遗忘：将 LLM 训练视为有损压缩的深度洞察

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出将大语言模型（LLM）训练过程视为一种“有损压缩（Lossy Compression）”过程，利用信息瓶颈（Information Bottleneck, IB）理论阐述模型如何通过遗忘无关信息来学习。研究通过分析 OLMo2 等多个开源模型家族，证实了 LLM 预训练遵循“先扩张表示、后优化压缩”的两阶段动力学轨迹。

TL;DR

为什么大模型在见过数万亿个 Token 后能产生智能？本文给出了一个极具物理直觉的解释：LLM 的训练本质上是一个“有损压缩”过程。模型不仅在学习如何预测下一个词，更在学习如何“遗忘”掉训练数据中那些对预测目标无关紧要的噪声。研究发现，高性能模型在信息平面上更接近理论上的信息瓶颈（Information Bottleneck, IB）边界。

背景定位

在学术坐标系中，这项工作成功地将经典的 信息论（Information Theory） 与现代 大规模语言模型（LLM） 的表示学习联系了起来。它不再局限于研究某个特定电路（Mechanistic Interpretability），而是从全局视角审视模型作为一个整体是如何进化的。

核心直觉：为什么要“遗忘”？

在有损压缩（如 MP3 或 JPEG）中，为了节省空间，我们会丢弃人类听觉或视觉无法察觉的频率。作者认为 LLM 也在做同样的事情：

复杂度（Complexity, I(X;Z)）：模型保留了多少关于输入的信息。
表达力（Expressivity, I(Y;Z)）：模型保留的信息中有多少能有效预测输出。

一个完美的模型应该用最少的复杂度实现最大的表达力。这就是所谓的“最优压缩”。

动力学详解：预训练的两阶段轨迹

通过对 OLMo2 家族模型的追踪，作者观察到了极其清晰的两个阶段：

拟合阶段（Fitting Phase）：模型快速吸收信息，I(X;Z) 和 I(Y;Z) 共同上升。
压缩阶段（Compression Phase）：随着训练损失进入平台期，模型开始“清理”表示空间，降低 I(X;Z) 同时保持甚至提升 I(Y;Z)，向 IB 边界靠拢。

模型架构与信息平面轨迹 （左图：不同规模模型在信息平面的轨迹；右图：压缩过程与训练损失的对应关系）

关键发现：规模与性能的真相

1. 规模决定压缩能力

研究发现，1B 以下的小模型几乎不经历压缩阶段。在预训练后期，小模型会在信息平面上“徘徊”甚至远离边界，而 7B 和 32B 模型则能持续优化压缩效率。这从信息论角度解释了为什么 Scaling Laws 是有效的——大参数量提供了实现更优压缩的拓扑冗余。

2. 压缩最优性 = 性能

作者通过对比 47 个开源模型（包括 Llama, Gemma, Qwen 等）发现，一个模型在 C4 数据集上的“压缩最优性”与其在 MMLU、Math 等基准测试上的表现显著正相关。

有趣的事实：高性能模型往往拥有更低的 Token 级复杂度，但拥有更丰富的长程上下文信息（Bigram/Trigram 层面的互信息更高）。

实验结果对比 （图示：各大家族模型最终都收敛在 IB 边界附近，表现越好的模型越靠近左上方边界）

3. 指令遵循与偏好信息

研究进一步探讨了后训练（Post-training）的作用。虽然预训练决定了模型的“基本盘”（通用压缩效率），但 SFT 和 RLHF 则是通过注入“偏好信息（Preference Information）”来微调压缩的内容。实验显示，模型内含的偏好信息量能以 r=0.76 的极高相关度预测其 IFEval 成绩。

深度洞察与总结

这项工作具有重大的工程指导意义：

停止准则：我们或许不应只看 Loss 指标，当模型的“压缩最优性”不再提升时，增加训练时长可能已无边际收益。
模型筛选：在没有运行昂贵基准测试的情况下，通过一次 Forward pass 计算熵值，即可初步判断一个 Checkpoint 的潜力。

局限性：目前的熵估计方法主要基于余弦相似度，忽略了增量（Norm）信息。未来研究若能涵盖向量模长的统计特性，将进一步完善这一压缩理论。

总结：LLM 的智能不是通过简单的堆砌数据获得的，而是通过在海量噪声中提炼出那一点点“预测未来”所必需的本质信息。学会学习，首先要学会遗忘。

Find Similar Papers

Try Our Examples

查找最近其他利用信息瓶颈（Information Bottleneck）理论分析 Transformer 架构或大规模预训练模型学习动力学的论文。
哪篇论文最早提出了信息瓶颈理论在深度神经网络中的两阶段（拟合与压缩）预测，本文在处理大规模序列数据时对其进行了哪些关键修正？
有哪些研究探讨了模型参数规模（Scaling Laws）与表征压缩效率之间的相变关系，特别是针对小型模型为何难以实现有效压缩的问题？

Contents

[ICLR 2025] 学习即遗忘：将 LLM 训练视为有损压缩的深度洞察

1. TL;DR

2. 背景定位

3. 核心直觉：为什么要“遗忘”？

4. 动力学详解：预训练的两阶段轨迹

5. 关键发现：规模与性能的真相

5.1. 1. 规模决定压缩能力

5.2. 2. 压缩最优性 = 性能

5.3. 3. 指令遵循与偏好信息

6. 深度洞察与总结