本文揭示了大语言模型(LLM)中普遍存在的“深度诅咒”(Curse of Depth, CoD),即深层网络由于方差爆炸导致 Jacobian 矩阵趋向恒等映射,使得深层神经元利用率极低。作者提出“稀疏性”是解决该问题的天然调节器,通过引入隐式(权值衰减、长文本输入)和显式(GQA、MoE)稀疏机制,成功抑制了方差传播并提升了模型精度。
TL;DR
大语言模型(LLM)并非越深越好。研究发现,传统的深层 LLM 往往陷入“深度诅咒”(Curse of Depth):越到深层,网络层越不干活。本文提出,稀疏计算(Sparsity) 并不只是为了省算力,它天生就能抑制深度神经网络中的方差爆炸。通过合理配置权重衰减、长文本、GQA 以及 MoE 等稀疏机制,我们可以显著提升深层网络的神经元利用率,在保持相同参数量的情况下,将下游任务准确率提升 4.6%。
深度诅咒:为什么深层网络在“摆烂”?
在主流的 Pre-LN 架构中,隐藏层的输出方差会随着深度亚指数级增长。这导致了一个尴尬的数学后果:随着层数 L 的增加,单层计算的 Jacobian 矩阵会坍缩成恒等矩阵(Identity Mapping)。
简而言之,深层网络的输出几乎就是输入的复制粘贴,没有进行任何实质性的非线性变换。这种现象被称为 Curse of Depth (CoD)。作者通过三个指标量化了这种“摆烂”程度:
- Causal Score:某层被去掉后,对后续层表征的影响。
- Permutation Score:该层与其他层互换位置后,性能的受损程度。
- Usefulness Score:该层贡献的非线性计算比例。
图:随着 L 从 12 增加到 32,Usefulness Score 显著下降,预示着严重的层冗余(图 d)。
稀疏性如何拯救深度?
论文通过定理证明(Theorem 1 & 2),稀疏掩码(Sparsity Mask)能像减速带一样减少残差栈中的能量累积。
1. 隐式稀疏:由训练诱导
- Weight Decay (权重衰减):强力的 L2 正则化会驱动小权重归零,诱导权值稀疏。实验表明,适度的衰减(如 )能有效降低输出方差,将层有效性从 0.75 提高到 0.81。
- Sequence Length (序列长度):增加上下文长度会产生更“尖锐”的 Softmax 注意力分布(即长程衰减),这种天然的注意力稀疏化有助于稳定深层信号。
2. 显式稀疏:由架构定义
- GQA (Grouped Query Attention):通过共享 KV 头,增加分组大小 G。实验发现,MQA(极端的 GQA)比传统 MHA 的方差低 2 倍。
- MoE (Mixture of Experts):作为稀疏化的集大成者,MoE 仅激活一小部分专家,通过路由机制实现了天然的方差调节。MoE 模型在相同激活参数量下,方差仅为稠密模型的 1/3 到 1/6。
图 1:通过叠加各种“稀疏”模块,32 层模型才真正展现出超越浅层模型的实力。
实验战绩:变废为宝
作者进行了一次硬核的消融实验。在 1.2B 总参数量的平衡对比中:
- 直接加深(Naive scaling):将模型从 16 层加深到 32 层,由于 CoD 效应,准确率甚至掉了 0.5%,层利用率暴跌。
- 加入稀疏性(Sparse-boosted scaling):通过集成长文本(T=4096)、增强权重衰减()以及采用 MoE 架构,32 层模型的准确率比 16 层基线提升了 4.6%,且层有效性(Usefulness Score)恢复至 0.75。
图:不同权重衰减下的方差演化,可见稀疏化手段对波动的显著平抑作用。
深度洞察
本文最具启发性的观点是:稀疏性其实是一种“优化正则项”。
过去我们认为 MoE 只是为了“大参数、小计算”,或者 GQA 只是为了“省显存”。但这项研究告诉我们,如果不采取这些稀疏化手段,深层网络在数学上几乎是不可训练的。这解释了为什么 DeepSeek 等现代 SOTA 模型普遍倒向大量显式稀疏(如 DeepSeekMoE/NSA)——这可能不是灵光一现,而是深层模型性能持续缩放(Scaling)的唯一通路。
总结
- 层利用率是评价大模型效率的新维度。
- 稀疏性 = 噪声过滤器,它通过降低模型分支的增益,防止了信号在残差连接中逐渐坍缩为“恒等变换”。
- 未来训练超深模型时,稀疏化的粒度(Granularity)和机制设计将成为决定 Scaling Law 能否延续的关键。
