WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] 稀疏性:破除 LLM “深度诅咒”的隐形钥匙
Summary
Problem
Method
Results
Takeaways
Abstract

本文揭示了大语言模型(LLM)中普遍存在的“深度诅咒”(Curse of Depth, CoD),即深层网络由于方差爆炸导致 Jacobian 矩阵趋向恒等映射,使得深层神经元利用率极低。作者提出“稀疏性”是解决该问题的天然调节器,通过引入隐式(权值衰减、长文本输入)和显式(GQA、MoE)稀疏机制,成功抑制了方差传播并提升了模型精度。

TL;DR

大语言模型(LLM)并非越深越好。研究发现,传统的深层 LLM 往往陷入“深度诅咒”(Curse of Depth):越到深层,网络层越不干活。本文提出,稀疏计算(Sparsity) 并不只是为了省算力,它天生就能抑制深度神经网络中的方差爆炸。通过合理配置权重衰减、长文本、GQA 以及 MoE 等稀疏机制,我们可以显著提升深层网络的神经元利用率,在保持相同参数量的情况下,将下游任务准确率提升 4.6%。

深度诅咒:为什么深层网络在“摆烂”?

在主流的 Pre-LN 架构中,隐藏层的输出方差会随着深度亚指数级增长。这导致了一个尴尬的数学后果:随着层数 L 的增加,单层计算的 Jacobian 矩阵会坍缩成恒等矩阵(Identity Mapping)。

简而言之,深层网络的输出几乎就是输入的复制粘贴,没有进行任何实质性的非线性变换。这种现象被称为 Curse of Depth (CoD)。作者通过三个指标量化了这种“摆烂”程度:

  • Causal Score:某层被去掉后,对后续层表征的影响。
  • Permutation Score:该层与其他层互换位置后,性能的受损程度。
  • Usefulness Score:该层贡献的非线性计算比例。

深度缩放导致的有效性下降 图:随着 L 从 12 增加到 32,Usefulness Score 显著下降,预示着严重的层冗余(图 d)。

稀疏性如何拯救深度?

论文通过定理证明(Theorem 1 & 2),稀疏掩码(Sparsity Mask)能像减速带一样减少残差栈中的能量累积。

1. 隐式稀疏:由训练诱导

  • Weight Decay (权重衰减):强力的 L2 正则化会驱动小权重归零,诱导权值稀疏。实验表明,适度的衰减(如 )能有效降低输出方差,将层有效性从 0.75 提高到 0.81。
  • Sequence Length (序列长度):增加上下文长度会产生更“尖锐”的 Softmax 注意力分布(即长程衰减),这种天然的注意力稀疏化有助于稳定深层信号。

2. 显式稀疏:由架构定义

  • GQA (Grouped Query Attention):通过共享 KV 头,增加分组大小 G。实验发现,MQA(极端的 GQA)比传统 MHA 的方差低 2 倍。
  • MoE (Mixture of Experts):作为稀疏化的集大成者,MoE 仅激活一小部分专家,通过路由机制实现了天然的方差调节。MoE 模型在相同激活参数量下,方差仅为稠密模型的 1/3 到 1/6。

模型架构与稀疏模块集成 图 1:通过叠加各种“稀疏”模块,32 层模型才真正展现出超越浅层模型的实力。

实验战绩:变废为宝

作者进行了一次硬核的消融实验。在 1.2B 总参数量的平衡对比中:

  • 直接加深(Naive scaling):将模型从 16 层加深到 32 层,由于 CoD 效应,准确率甚至掉了 0.5%,层利用率暴跌。
  • 加入稀疏性(Sparse-boosted scaling):通过集成长文本(T=4096)、增强权重衰减()以及采用 MoE 架构,32 层模型的准确率比 16 层基线提升了 4.6%,且层有效性(Usefulness Score)恢复至 0.75。

方差演化曲线 图:不同权重衰减下的方差演化,可见稀疏化手段对波动的显著平抑作用。

深度洞察

本文最具启发性的观点是:稀疏性其实是一种“优化正则项”

过去我们认为 MoE 只是为了“大参数、小计算”,或者 GQA 只是为了“省显存”。但这项研究告诉我们,如果不采取这些稀疏化手段,深层网络在数学上几乎是不可训练的。这解释了为什么 DeepSeek 等现代 SOTA 模型普遍倒向大量显式稀疏(如 DeepSeekMoE/NSA)——这可能不是灵光一现,而是深层模型性能持续缩放(Scaling)的唯一通路。

总结

  1. 层利用率是评价大模型效率的新维度。
  2. 稀疏性 = 噪声过滤器,它通过降低模型分支的增益,防止了信号在残差连接中逐渐坍缩为“恒等变换”。
  3. 未来训练超深模型时,稀疏化的粒度(Granularity)和机制设计将成为决定 Scaling Law 能否延续的关键。

Find Similar Papers

Try Our Examples

  • 查找最近其他探讨 Transformer 深度增加导致层冗余或层崩溃(Layer Collapse)现象的论文。
  • 除了文中提到的 Pre-LN,哪篇论文最早分析了不同 Normalization 策略(如 Post-LN 或 Mix-LN)对模型方差积累的影响?
  • 有哪些最新的研究直接利用稀疏注意力(Sparse Attention)来训练超大规模深度模型,并量化了其对训练稳定性的贡献?
Contents
[ICLR 2025] 稀疏性:破除 LLM “深度诅咒”的隐形钥匙
1. TL;DR
2. 深度诅咒:为什么深层网络在“摆烂”?
3. 稀疏性如何拯救深度?
3.1. 1. 隐式稀疏:由训练诱导
3.2. 2. 显式稀疏:由架构定义
4. 实验战绩:变废为宝
5. 深度洞察
6. 总结