The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

消解 LLM 的“数值幻象”：深入剖析巨大激活与注意力汇的因果骨架

总结

问题

方法

结果

要点

摘要

本文深入探讨了 Transformer 语言模型中常见的“巨大激活（Massive Activations）”和“注意力汇（Attention Sinks）”现象。通过系统性实验，作者证明了两者虽常共存，但实际上是由特定的架构设计（如 Pre-norm）导致的互不依赖的非必要工件，并分别扮演了“全局隐式参数”和“局部注意力调制器”的角色。

TL;DR

在 Llama 或 Qwen 等现代 Transformer 模型中，你是否好奇为什么第一个 Token 总能吸走大部分注意力？为什么某些隐藏层通道的数值会突然飙升到正常值的几千倍？这篇来自 Yann LeCun 实验室的研究给出了硬核答案：这既不是魔法，也不是功能必然，而是 Pre-norm 架构下的“工程巧合”。作者通过解析发现，巨大激活（Spikes）是模型的隐式参数，而注意力汇（Sinks）是模型的局部路由机制。

1. 现象观察：深层网络里的“异类”

在深度 Transformer 网络中，两个现象总是如影随形：

Massive Activations (巨大激活)：某些 Token（通常是第一个 Token 或标点符号）在中间层的极少数通道里表现出惊人的离群值。
Attention Sinks (注意力汇)：无论语义是否相关，注意力机制都会疯狂“白嫖”某些固定位置的 Token（如起始符 <s>）。

以往的研究认为两者是一体两面，但本文基于对 Llama 2/3、Qwen 2.5/3 等 12 个开源模型的解剖，提出了全新的洞察。

2. 动力学溯源：离群值是如何诞生的？

作者发现离群值在层间遵循 “升起—平台—下落” 的生命周期（参见下图）。

模型激活值生命周期 图 1：在 Llama 和 Qwen 模型中，早期的“Step-up Block”注入巨大激活，并在网络末端的“Step-down Block”将其中和。

方向性二次放大器

为什么是 SwiGLU 结构？作者通过数学推导证明（见附录定理 B.2），当 Token 的隐藏表征对齐到一个特定的“触发方向”时，SwiGLU 的二次项结构会产生极高的增益，瞬间将某个坐标轴的值放大几个数量级。

3. 规范化的桥梁：从 Spikes 到 Sinks

既然有了 Spikes，为什么会产生 Sinks？奥秘在于 RMSNorm。当一个带有巨大离群值的向量进入归一化层时，它会发生以下剧变：

Sparsification (稀疏化)：由于分母被极大的离群值主导，非离群通道被大幅压缩至接近于 0。
Near-constant (近乎恒定)：虽然原始 Token 语义各异，但归一化后变成了几乎一样的“多热编码（Multi-hot）”向量。

这就为注意力机制提供了一个稳定的几何对齐点。注意力头发现这些 Token 的 Key 向量分布在一个极小且稳定的子空间内，因此将它们作为“默认位置”来倾倒多余的注意力。

4. 实验解耦：两者真的必须共存吗？

为了验证因果性，研究团队进行了一系列“硬核手术”：

消融 1：改变 Normalization

如果弃用默认的 Pre-norm，改用 Sandwich Norm（在输出端加一个额外的 RMSNorm）或 QKNorm。结果显示：离群值几乎消失了（从数千降到不到 100），但注意力汇依然健在。

实验结果对比表 表 5：不同规范化方案对离群值和汇比例的影响。注意 Sandwich Norm 对 Spikes 的强力压制。

消融 2：引入显式门控（Conditional Gating）

有趣的是，当给模型配备了显式的乘法门控时，注意力汇现象竟然彻底消失了。这意味着：注意力汇其实是模型在缺乏动态路由机制时，被迫自发进化出的一种“低质量”门控方案。

5. 深度洞察与总结

这篇论文的价值在于它打破了 LLM 研究中的一些“迷信”：

模型不需要离群值也能保持强大：离群值是 Pre-norm 容忍数值累积的副作用。
注意力汇是短文训练的副产品：实验发现，如果只在长文上训练，模型对注意力汇的依赖会大幅下降。

学术评价：该工作严谨地使用数学框架（二次型近似）解释了神经元内部的数值动态，不仅在工程上对量化优化（Quantization）有直接启发，在理论上也完善了我们对 Transformer 归纳偏置（Inductive Bias）的理解。

局限性与未来

尽管作者提供了强有力的架构分析，但对于“为什么模型更偏爱在早期注入离群值”而非中期，仍有待更深层的训练动力学解释。对于未来的 LLM 设计，或许我们应当考虑更先进的归一化和门控方案，让模型从这些“数值工件”中解脱出来。

发现相似论文

试试这些示例

查找最近关于通过修改 Normalization 结构来解决 LLM 量化中离群通道（Outlier Channels）问题的论文。
哪篇早期的 Transformer 研究首次讨论了 Pre-norm 与 Post-norm 在梯度稳定性和激活值范围上的差异？
调研除了夹心规范化（Sandwich Norm）外，还有哪些架构设计（如各种 Gated Attention 变体）被证明能有效抑制注意力汇现象？

消解 LLM 的“数值幻象”：深入剖析巨大激活与注意力汇的因果骨架

1. TL;DR

2. 1. 现象观察：深层网络里的“异类”

3. 2. 动力学溯源：离群值是如何诞生的？

3.1. 方向性二次放大器

4. 3. 规范化的桥梁：从 Spikes 到 Sinks

5. 4. 实验解耦：两者真的必须共存吗？

5.1. 消融 1：改变 Normalization

5.2. 消融 2：引入显式门控（Conditional Gating）

6. 5. 深度洞察与总结

6.1. 局限性与未来