WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[Google Research] 只增不删:通过函数保持型扩展彻底告别灾难性遗忘
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了一种名为“只增不删”(Grow, Don’t Overwrite)的函数保持型模型扩展方法,旨在解决预训练模型在微调过程中常见的灾难性遗忘问题。该方法通过在 Transformer 的 MLP 子模块中复制预训练参数并应用缩放修正,在保持模型初始数学等价性的前提下实现了容量扩展。

TL;DR

在将预训练大模型适配到专业领域时,**灾难性遗忘(Catastrophic Forgetting)**一直是挥之不去的阴影。Google Research 的最新论文提出了一种“优雅扩展”的策略:通过在 Transformer 的 MLP 层进行数学等价的权重复制与缩放,让模型在微调初期完全继承预训练能力,并在后续训练中只更新新增参数。实验证明,该方法在提升新任务表现的同时,能够完美锁定原有的基础能力。

痛点深挖:微调中的“拆东墙补西墙”

目前的模型微调本质上是一种“覆盖”操作。当你试图让模型精通量子力学时,优化器会修改参数权重,这往往会无意中擦除模型原有的常识或算术能力。

  • 正则化方法(如 EWC):虽然能减缓遗忘,但限制了模型学习新知识的灵活性,陷入性能平庸的僵局。
  • 传统的容量增长:虽然加入了新参数,但如果使用随机初始化,模型在训练初期会经历巨大的波动,且无法有效利用预训练积累的特征提取能力。

核心直觉:如何“复制”出更多空间?

作者提出的核心创新是:利用现有知识初始化的函数保持扩展

1. 架构解析

针对 Transformer 中的 MLP 块(包含 Up-projection 和 Down-projection 两个线性层),作者设计了一套精妙的拼接方案:

  • Up-projection ((W^{(1)})):将原始矩阵复制一份并横向拼接。这样,中间层的激活值维度翻倍,且每个神经元的输出与原模型相同。
  • Down-projection ((W^{(2)})):将原始矩阵缩小到原来的 1/2,然后纵向拼接。
  • 物理直觉:这就像是从一个水管引出两个一模一样的子管,最后再把它们合并起来,但为了让总流量保持不变,合并时我们将每个子管的流量限制在原来的一半。在初始化瞬间,模型的输出与原模型在数学上是完全恒等的。

模型架构与扩展方案对比

2. 训练策略:G-Freeze 与 G-Train

  • G-Freeze:冻结所有原始权重,只训练新增的副本。这保证了模型“根基”不动。
  • G-Train:针对数学推理等高难度任务,允许对整个 Up-projection 矩阵进行更新,但保持下投影层冻结(研究表明事实性知识多存储在下投影层)。

实验与结果:鱼与熊掌兼得

研究团队在多种任务上验证了该方法的威力:

性能对决

在翻译(MTNT)、科学推理(SciTail)和数学(MathQA)任务中,本方法(橙色线)的曲线始终与 SFT(蓝色线)重合甚至超越。 更重要的是,在 WinoGrande(考察常识保留度) 指标上,SFT 随着训练进行性能发生断崖式下跌,而本方法几乎保持水平直线。

不同任务下的性能保留对比

模块化与效率

作者通过分析发现,并非所有层对新任务都同等重要。通过只扩展那些参数变化剧烈的“核心层”(通常只需 10 层左右),模型可以用仅 30% 的可训练参数实现 100% 的 SFT 性能。

内部表征稳定性

论文引入了 函数向量(Function Vectors, FV) 分析。实验显示,SFT 之后模型内部处理特定任务的神经环路(Causal Heads)发生了剧烈偏移(相似度仅 0.28),而本方法保持了 0.95 的超高相似度。这意味着我们的“扩容”动作确实没有破坏模型的“大脑结构”。

深度洞察:为何只扩 MLP?

在消融实验(Ablation Study)中,作者对比了扩展 Attention 维度或增加 Head 数量的方案,结果发现效果均不如扩展 MLP。这进一步验证了 MLP 层作为 LLM 知识存储库(Key-Value Memories)的地位,扩充 MLP 相当于直接增加了模型的知识库容量。

总结与局限

这篇论文为解决“持续学习”难题提供了一个极为实用的工程化方案。尽管模型的前向推理成本会因为隐藏层维度翻倍而有所增加,但在知识密集型和专业领域微调中,这种“几乎零遗忘”的特性对于构建多功能专家模型至关重要。

未来,该方法可以与 LoRA 等高效参数微调技术结合,进一步降低训练门槛,实现真正的“按需扩容,永久记忆”。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他基于 Function-preserving 原理进行大语言模型扩展或持续学习的研究论文。
  • Deep Fusion 论文是如何定义模型权重初始化与融合的,本文提出的拼接缩放方案与其有何演进关系?
  • 除了 MLP 模块,目前有哪些 SOTA 研究成功实现了对 Transformer Attention 机制的函数保持型动态容量扩展?
Contents
[Google Research] 只增不删:通过函数保持型扩展彻底告别灾难性遗忘
1. TL;DR
2. 痛点深挖:微调中的“拆东墙补西墙”
3. 核心直觉:如何“复制”出更多空间?
3.1. 1. 架构解析
3.2. 2. 训练策略:G-Freeze 与 G-Train
4. 实验与结果:鱼与熊掌兼得
4.1. 性能对决
4.2. 模块化与效率
4.3. 内部表征稳定性
5. 深度洞察:为何只扩 MLP?
6. 总结与局限