Memory Caching: RNNs with Growing Memory

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Memory Caching: RNNs with Growing Memory

[ICLR 2025/2026] Memory Caching：让 RNN 拥有“长生不老”的记忆力

总结

问题

方法

结果

要点

摘要

本文提出了 Memory Caching (MC)，一种增强循环神经网络 (RNN) 记忆能力的长序列建模技术。通过将序列分段并缓存隐藏状态快照，该方法使 RNN 的有效内存容量随序列长度增长，在 recall-intensive 任务上填补了 RNN 与 Transformer 之间的性能鸿沟，实现了 SOTA 循环模型的性能突破。

TL;DR

长期以来，循环模型（RNNs, Linear Attention, SSMs）因其恒定的推理开销被视为 Transformer 的挑战者，但它们在深度召回任务中的“健忘症”始终是硬伤。谷歌等机构提出的 Memory Caching (MC) 技术，通过在推理过程中动态缓存和检索历史内存快照，让 RNN 的内存容量能够随序列长度增长，兼顾了 Transformer 的高精度与线性模型的效率。

背景定位：徘徊在 O(L) 与 O(L^2) 之间

Transformer 的成功很大程度上归功于其 Growing Memory：随着 Context Length 增加，KV-cache 随之增长，确保模型能检索到任何历史细节。反观 RNN 变体，其将所有历史压缩进一个固定大小的 Hidden State，这无异于试图用一个瓶子装下一条河，必然导致信息溢出。

本文提出的 MC 处于学术坐标系的“中间地带”：它不追求完全的 $O (L)$ 极致压缩，也不接受 $O (L^{2})$ 的冗余计算，而是通过可控的缓存频率，实现 $O (N L)$ 的复杂度（ $N$ 为缓存段数），在计算效率与记忆召回之间架起了一座桥梁。

痛点深挖：为什么 RNN 总是“记不住”？

线性注意力（Linear Attention）等架构尝试通过 $M_{t} = M_{t - 1} + v_{t} k_{t}^{o} p$ 实现循环更新。其本质是在进行单步在线优化。然而，当处理数万个 token 时：

梯度消失/衰减：旧信息的权重在不断累加中被冲淡。
容量饱和：固定维度的矩阵无法承载无限的信息复杂度。
缺乏选择性：标准 RNN 无法像 Attention 那样精确地跳回到某个特定历史节点。

核心方法论：Memory Caching 的四种姿势

作者的核心直觉是：如果一个内存不够，那就存一堆内存快照。

模型总架构图

1. (Gated) Residual Memory (GRM)

最直观的方法是让 Query 同时作用于当下的内存块和历史缓存块，并进行求和。为了避免旧信息干扰，引入了 Context-aware Gating： $y_{t} = γ_{t}^{(s)} M_{t}^{(s)} (q_{t}) + \sum_{i = 1}^{s - 1} γ_{t}^{(i)} M_{L^{(i)}}^{(i)} (q_{t})$ 这里的 $γ$ 是根据当前输入与历史段落的相似度动态计算的，实现了类似 Attention 的选择性。

2. Memory Soup

受“模型汤”（Model Soups）启发，对于非线性内存模块（如 Titans 或 DLA），本文提出直接在参数空间进行插值： $h e t a_{M_{t}^{*}} = \sum γ_{t}^{(i)} h e t a_{M^{(i)}}$ 这意味着每个 Token 在检索时，实际上是创建了一个融合了多段历史知识的“临时特种内存模型”。

3. Sparse Selective Caching (SSC)

为了应对超长序列，SSC 引入了 Router（路由器）。它只挑选相关度最高的 Top-k 个历史快照进行计算。这极大地降低了 GPU 的显存加载压力，是迈向“无限长上下文”的工程优化利器。

SSC 选择性缓存示意图

实验结果：闭合与 Transformer 的差距

在核心的 Needle-in-a-Haystack (NIAH) 测试中，传统的线性模型（如 DLA）在 16K 长度时几乎崩溃（召回率跌至个位数），而加入 MC 后的模型表现出极强的韧性：

| 架构 | 4K 召回率 | 8K 召回率 | 16K 召回率 | | :--- | :--- | :--- | :--- | | DLA (Base) | 18.2% | 8.8% | 4.0% | | DLA + GRM | 48.2% | 34.4% | 18.2% | | Titans (Base) | 74.2% | 42.8% | 21.2% | | Titans + GRM | 89.4% | 69.0% | 32.2% |

这种显著的阶跃式提升证明了，即便内存模块本身不改变，仅仅通过改变“如何组织和检索历史快照”，就能榨取出循环模型巨大的潜力。

深度洞察：另一种视角的混合模型 (Hybrid Models)

有趣的是，作者指出当 MC 的段长度设为 1 时，它在数学上等价于某种形式的 Gated Attention。这为当前的 Hybrid 架构（如 Jamba, Samba 等将简单 RNN 与 Attention 交织）提供了理论解释。MC 实际上提供了一个统一框架：

Segment Size = 1 $\to$ Transformer (全留存，零压缩)
Segment Size = $\infty$ $\to$ RNN (全压缩，零留存)
Memory Caching $\to$ 受控的、按需的记忆增长。

总结与局限

Memory Caching 为 RNN 阵营提供了一个强有力的武器，证明了“线性效率”与“长效记忆”并非鱼与熊掌不可兼得。

不足之处：

推理成本：虽然比全注意力快，但 $O (N L)$ 意味着缓存段越多，KV 加载开销越大。
分段策略：目前采用等长分段，未来若能实现根据语义重要性动态分段，性能可能更进一步。

这篇工作对于希望在端侧（Memory-constrained devices）实现长文本处理的开发者来说，具有极高的参考价值。

发现相似论文

试试这些示例

查找在循环神经网络（RNN）或状态空间模型（SSM）中采用类似“分段缓存”或“分层内存”机制来解决长程依赖的其他最新研究。
哪篇论文最早探讨了“权重汤”（Weight Soup）在模型参数空间插值中的原理，本文是如何将其演化为 Memory Soup 动态内存聚合的？
针对大规模视觉模型（Vision Transformers），是否有研究借鉴了类似 Memory Caching 的策略，通过缓存历史帧的隐藏状态来增强视频理解中的超长时记忆？

[ICLR 2025/2026] Memory Caching：让 RNN 拥有“长生不老”的记忆力

1. TL;DR

2. 背景定位：徘徊在 O(L) 与 O(L^2) 之间

3. 痛点深挖：为什么 RNN 总是“记不住”？

4. 核心方法论：Memory Caching 的四种姿势

4.1. 1. (Gated) Residual Memory (GRM)

4.2. 2. Memory Soup

4.3. 3. Sparse Selective Caching (SSC)

5. 实验结果：闭合与 Transformer 的差距

6. 深度洞察：另一种视角的混合模型 (Hybrid Models)

7. 总结与局限