WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] 学习即遗忘:将 LLM 训练视为有损压缩的深度洞察
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出将大语言模型(LLM)训练过程视为一种“有损压缩(Lossy Compression)”过程,利用信息瓶颈(Information Bottleneck, IB)理论阐述模型如何通过遗忘无关信息来学习。研究通过分析 OLMo2 等多个开源模型家族,证实了 LLM 预训练遵循“先扩张表示、后优化压缩”的两阶段动力学轨迹。

TL;DR

为什么大模型在见过数万亿个 Token 后能产生智能?本文给出了一个极具物理直觉的解释:LLM 的训练本质上是一个“有损压缩”过程。模型不仅在学习如何预测下一个词,更在学习如何“遗忘”掉训练数据中那些对预测目标无关紧要的噪声。研究发现,高性能模型在信息平面上更接近理论上的信息瓶颈(Information Bottleneck, IB)边界

背景定位

在学术坐标系中,这项工作成功地将经典的 信息论(Information Theory) 与现代 大规模语言模型(LLM) 的表示学习联系了起来。它不再局限于研究某个特定电路(Mechanistic Interpretability),而是从全局视角审视模型作为一个整体是如何进化的。

核心直觉:为什么要“遗忘”?

在有损压缩(如 MP3 或 JPEG)中,为了节省空间,我们会丢弃人类听觉或视觉无法察觉的频率。作者认为 LLM 也在做同样的事情:

  • 复杂度(Complexity, I(X;Z)):模型保留了多少关于输入的信息。
  • 表达力(Expressivity, I(Y;Z)):模型保留的信息中有多少能有效预测输出。

一个完美的模型应该用最少的复杂度实现最大的表达力。这就是所谓的“最优压缩”。

动力学详解:预训练的两阶段轨迹

通过对 OLMo2 家族模型的追踪,作者观察到了极其清晰的两个阶段:

  1. 拟合阶段(Fitting Phase):模型快速吸收信息,I(X;Z) 和 I(Y;Z) 共同上升。
  2. 压缩阶段(Compression Phase):随着训练损失进入平台期,模型开始“清理”表示空间,降低 I(X;Z) 同时保持甚至提升 I(Y;Z),向 IB 边界靠拢。

模型架构与信息平面轨迹 (左图:不同规模模型在信息平面的轨迹;右图:压缩过程与训练损失的对应关系)

关键发现:规模与性能的真相

1. 规模决定压缩能力

研究发现,1B 以下的小模型几乎不经历压缩阶段。在预训练后期,小模型会在信息平面上“徘徊”甚至远离边界,而 7B 和 32B 模型则能持续优化压缩效率。这从信息论角度解释了为什么 Scaling Laws 是有效的——大参数量提供了实现更优压缩的拓扑冗余。

2. 压缩最优性 = 性能

作者通过对比 47 个开源模型(包括 Llama, Gemma, Qwen 等)发现,一个模型在 C4 数据集上的“压缩最优性”与其在 MMLU、Math 等基准测试上的表现显著正相关。

  • 有趣的事实:高性能模型往往拥有更低的 Token 级复杂度,但拥有更丰富的长程上下文信息(Bigram/Trigram 层面的互信息更高)。

实验结果对比 (图示:各大家族模型最终都收敛在 IB 边界附近,表现越好的模型越靠近左上方边界)

3. 指令遵循与偏好信息

研究进一步探讨了后训练(Post-training)的作用。虽然预训练决定了模型的“基本盘”(通用压缩效率),但 SFT 和 RLHF 则是通过注入“偏好信息(Preference Information)”来微调压缩的内容。实验显示,模型内含的偏好信息量能以 r=0.76 的极高相关度预测其 IFEval 成绩。

深度洞察与总结

这项工作具有重大的工程指导意义:

  • 停止准则:我们或许不应只看 Loss 指标,当模型的“压缩最优性”不再提升时,增加训练时长可能已无边际收益。
  • 模型筛选:在没有运行昂贵基准测试的情况下,通过一次 Forward pass 计算熵值,即可初步判断一个 Checkpoint 的潜力。

局限性:目前的熵估计方法主要基于余弦相似度,忽略了增量(Norm)信息。未来研究若能涵盖向量模长的统计特性,将进一步完善这一压缩理论。

总结:LLM 的智能不是通过简单的堆砌数据获得的,而是通过在海量噪声中提炼出那一点点“预测未来”所必需的本质信息。学会学习,首先要学会遗忘。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用信息瓶颈(Information Bottleneck)理论分析 Transformer 架构或大规模预训练模型学习动力学的论文。
  • 哪篇论文最早提出了信息瓶颈理论在深度神经网络中的两阶段(拟合与压缩)预测,本文在处理大规模序列数据时对其进行了哪些关键修正?
  • 有哪些研究探讨了模型参数规模(Scaling Laws)与表征压缩效率之间的相变关系,特别是针对小型模型为何难以实现有效压缩的问题?
Contents
[ICLR 2025] 学习即遗忘:将 LLM 训练视为有损压缩的深度洞察
1. TL;DR
2. 背景定位
3. 核心直觉:为什么要“遗忘”?
4. 动力学详解:预训练的两阶段轨迹
5. 关键发现:规模与性能的真相
5.1. 1. 规模决定压缩能力
5.2. 2. 压缩最优性 = 性能
5.3. 3. 指令遵循与偏好信息
6. 深度洞察与总结