When Does Sparsity Mitigate the Curse of Depth in LLMs

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

When Does Sparsity Mitigate the Curse of Depth in LLMs

[ICLR 2025] 稀疏性：破除 LLM “深度诅咒”的隐形钥匙

总结

问题

方法

结果

要点

摘要

本文揭示了大语言模型（LLM）中普遍存在的“深度诅咒”（Curse of Depth, CoD），即深层网络由于方差爆炸导致 Jacobian 矩阵趋向恒等映射，使得深层神经元利用率极低。作者提出“稀疏性”是解决该问题的天然调节器，通过引入隐式（权值衰减、长文本输入）和显式（GQA、MoE）稀疏机制，成功抑制了方差传播并提升了模型精度。

TL;DR

大语言模型（LLM）并非越深越好。研究发现，传统的深层 LLM 往往陷入“深度诅咒”（Curse of Depth）：越到深层，网络层越不干活。本文提出，稀疏计算（Sparsity） 并不只是为了省算力，它天生就能抑制深度神经网络中的方差爆炸。通过合理配置权重衰减、长文本、GQA 以及 MoE 等稀疏机制，我们可以显著提升深层网络的神经元利用率，在保持相同参数量的情况下，将下游任务准确率提升 4.6%。

深度诅咒：为什么深层网络在“摆烂”？

在主流的 Pre-LN 架构中，隐藏层的输出方差会随着深度亚指数级增长。这导致了一个尴尬的数学后果：随着层数 L 的增加，单层计算的 Jacobian 矩阵会坍缩成恒等矩阵（Identity Mapping）。

简而言之，深层网络的输出几乎就是输入的复制粘贴，没有进行任何实质性的非线性变换。这种现象被称为 Curse of Depth (CoD)。作者通过三个指标量化了这种“摆烂”程度：

Causal Score：某层被去掉后，对后续层表征的影响。
Permutation Score：该层与其他层互换位置后，性能的受损程度。
Usefulness Score：该层贡献的非线性计算比例。

深度缩放导致的有效性下降 图：随着 L 从 12 增加到 32，Usefulness Score 显著下降，预示着严重的层冗余（图 d）。

稀疏性如何拯救深度？

论文通过定理证明（Theorem 1 & 2），稀疏掩码（Sparsity Mask）能像减速带一样减少残差栈中的能量累积。

1. 隐式稀疏：由训练诱导

Weight Decay (权重衰减)：强力的 L2 正则化会驱动小权重归零，诱导权值稀疏。实验表明，适度的衰减（如 $λ = 0.1$ ）能有效降低输出方差，将层有效性从 0.75 提高到 0.81。
Sequence Length (序列长度)：增加上下文长度会产生更“尖锐”的 Softmax 注意力分布（即长程衰减），这种天然的注意力稀疏化有助于稳定深层信号。

2. 显式稀疏：由架构定义

GQA (Grouped Query Attention)：通过共享 KV 头，增加分组大小 G。实验发现，MQA（极端的 GQA）比传统 MHA 的方差低 2 倍。
MoE (Mixture of Experts)：作为稀疏化的集大成者，MoE 仅激活一小部分专家，通过路由机制实现了天然的方差调节。MoE 模型在相同激活参数量下，方差仅为稠密模型的 1/3 到 1/6。

模型架构与稀疏模块集成 图 1：通过叠加各种“稀疏”模块，32 层模型才真正展现出超越浅层模型的实力。

实验战绩：变废为宝

作者进行了一次硬核的消融实验。在 1.2B 总参数量的平衡对比中：

直接加深（Naive scaling）：将模型从 16 层加深到 32 层，由于 CoD 效应，准确率甚至掉了 0.5%，层利用率暴跌。
加入稀疏性（Sparse-boosted scaling）：通过集成长文本（T=4096）、增强权重衰减（ $λ = 0.3$ ）以及采用 MoE 架构，32 层模型的准确率比 16 层基线提升了 4.6%，且层有效性（Usefulness Score）恢复至 0.75。

方差演化曲线 图：不同权重衰减下的方差演化，可见稀疏化手段对波动的显著平抑作用。

深度洞察

本文最具启发性的观点是：稀疏性其实是一种“优化正则项”。

过去我们认为 MoE 只是为了“大参数、小计算”，或者 GQA 只是为了“省显存”。但这项研究告诉我们，如果不采取这些稀疏化手段，深层网络在数学上几乎是不可训练的。这解释了为什么 DeepSeek 等现代 SOTA 模型普遍倒向大量显式稀疏（如 DeepSeekMoE/NSA）——这可能不是灵光一现，而是深层模型性能持续缩放（Scaling）的唯一通路。

总结

层利用率是评价大模型效率的新维度。
稀疏性 = 噪声过滤器，它通过降低模型分支的增益，防止了信号在残差连接中逐渐坍缩为“恒等变换”。
未来训练超深模型时，稀疏化的粒度（Granularity）和机制设计将成为决定 Scaling Law 能否延续的关键。

发现相似论文

试试这些示例

查找最近其他探讨 Transformer 深度增加导致层冗余或层崩溃（Layer Collapse）现象的论文。
除了文中提到的 Pre-LN，哪篇论文最早分析了不同 Normalization 策略（如 Post-LN 或 Mix-LN）对模型方差积累的影响？
有哪些最新的研究直接利用稀疏注意力（Sparse Attention）来训练超大规模深度模型，并量化了其对训练稳定性的贡献？

[ICLR 2025] 稀疏性：破除 LLM “深度诅咒”的隐形钥匙

1. TL;DR

2. 深度诅咒：为什么深层网络在“摆烂”？

3. 稀疏性如何拯救深度？

3.1. 1. 隐式稀疏：由训练诱导

3.2. 2. 显式稀疏：由架构定义

4. 实验战绩：变废为宝

5. 深度洞察

6. 总结