Progressive Residual Warmup for Language Model Pretraining

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Progressive Residual Warmup for Language Model Pretraining

[ICLR 2025/2026] ProRes：让 Transformer 深层“学乖”，动态残差预热突破深度扩展瓶颈

总结

问题

方法

结果

要点

摘要

本文提出了 Progressive Residual Warmup (ProRes)，一种针对 Transformer 预训练的逐层残差预热策略。该方法通过一个随时间变化的标量 α 动态控制各层残差分支的贡献，实现了“浅层先学、深层后到”的顺序优化，在多种模型规模（最高至 7B）和架构变体上均显著提升了收敛速度与泛化性能。

TL;DR

在预训练大模型时，我们通常假设所有层应该同时开始学习。然而，ProRes (Progressive Residual Warmup) 告诉我们：“长幼有序”才是优化的王道。通过让浅层先稳定表示，深层逐步加入战斗，ProRes 在不增加推理开销的情况下，显著提升了 Llama 类架构的预训练稳定性和最终性能。

背景定位：这是一篇针对 Transformer 优化基础理论的创新工作，挑战了传统的静态初始化视角，提出了动态、阶段感知的残差控制机制。

1. 痛点：深层的“越位”与优化的混乱

在传统的 Pre-LN 或 Post-LN 架构中，残差连接（Residual Connection）虽然解决了消失梯度问题，但也带来了一个副作用：在训练初期，所有层会同时对表示（Representation）进行大幅修改。

由于深层的输入高度依赖浅层，当浅层还处于“混沌”状态时，深层强行进行的参数更新往往是低效甚至有害的噪声。这种现象在极深模型中尤为明显，表现为激活值指数级增长和频繁的训练崩坏（Loss Spikes）。

2. 核心直觉：ProRes 的“循序渐进”

作者提出的 ProRes 遵循一个极简物理直觉：让深层等一等。

2.1 数学定义

对于第 $l$ 层，ProRes 将其残差前向过程修改为： $x_{l + 1} = x_{l} + α (l, t) \cdot F (e x t N or m (x_{l}))$ 其中， $α (l, t)$ 是一个依赖于当前训练步数 $t$ 和所属层数 $l$ 的标量。

2.2 线性调度（Linear Schedule）

最推荐的配置是线性预热： $α (l, t) = min (\frac{t}{T im es l}, 1)$ 这意味着：

初始化即恒等： $t = 0$ 时 $α = 0$ ，模型退化为一串恒等映射，保证了极佳的起始梯度流动。
顺序激活：第一层最快达到满血状态，而第 $L$ 层需要最长的等待时间。这种设计完美契合了 Transformer 的层级依赖逻辑。

模型架构与公式逻辑 表 1：ProRes 在 Pre-LN, Post-LN 等多种变体上的实现形式

3. 实验战绩：全线飘红

ProRes 的强大之处在于其通用性。无论你使用的是经典的 Pre-LN，还是为了稳定性设计的 DeepNorm 或 LayerNorm Scaling (LNS)，加入 ProRes 都能获得 Buff 加成。

规模扩展：在 7B 参数模型实验中，ProRes 在训练全程保持了对 Vanilla Pre-LN 的领先，且在学习率衰减阶段（Decay Stage）表现出更强的潜力。
深度扩展性（Depth Scaling）： 图 1：随着层数增加，ProRes（蓝色实线）展现出最稳健的 Perplexity 下降曲线，尤其在 120 层时，优势远超 LNS 和基线。
优化稳定性：如图 2 所示，在极深模型中，普通 Pre-LN 的梯度和 Loss 波动剧烈（Spike Score 高），而 ProRes 几乎保持零波动。

4. 深度洞察：为什么有效？

论文通过分析激活值增长和表示演化给出了答案：

抑制指数爆炸：Vanilla Pre-LN 容易在深层出现激活值 norm 指数增长，ProRes 强制让早期训练保持在线性增长轨道上，避免了浮点溢出风险。
平滑演化：通过测量层输出与最终模型输出的余弦相似度，发现 ProRes 的表示演化比基线平滑得多。基线在训练中频繁出现表示“回退”或剧烈震荡，而 ProRes 则是稳健地向终点推进。

表示平滑度对比 图 4：(a) 无 ProRes 时深层表示波动剧烈；(b) 加入 ProRes 后演化路径极度平滑。

5. 总结与反思

ProRes 成功的关键在于它尊重了神经网络的 Inductive Bias——即层级深度本身就带有时间先后的逻辑含义。

局限性：

调度参数 $T$ 可能需要根据总训练步数微调。
对于某些已经极其稳定的架构（如使用了强力微缩 LNS 的模型），收益会边际递减。

启示：在追求大模型 Scaling 的过程中，除了增加参数和数据，重新检视优化过程中的时序协调，或许是通往万亿参数模型更高效、更稳定的“免费午餐”。

本文由资深学术主编重构。代码已开源：https://github.com/dandingsky/ProRes

发现相似论文

试试这些示例

查找最近一年关于大语言模型预训练阶段感知（Training-phase-aware）优化器或学习率调度方案的研究。
哪篇论文最早探讨了 Transformer 浅层与深层收敛速度的异质性（Heterogeneous Convergence），ProRes 与层冻结（Layer Freezing）技术有何内在联系？
调研将层级残差缩放（Layer-wise Residual Scaling）应用于视觉 Transformer (ViT) 或扩散模型 (Diffusion Models) 以解决极深网络优化问题的相关文献。

[ICLR 2025/2026] ProRes：让 Transformer 深层“学乖”，动态残差预热突破深度扩展瓶颈

1. TL;DR

2. 1. 痛点：深层的“越位”与优化的混乱

3. 2. 核心直觉：ProRes 的“循序渐进”

3.1. 2.1 数学定义

3.2. 2.2 线性调度（Linear Schedule）

4. 3. 实验战绩：全线飘红

5. 4. 深度洞察：为什么有效？

6. 5. 总结与反思