WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

像Mamba这样的状态空间模型会成为NLP的下一个突破吗?

像Mamba这样的状态空间模型在自然语言处理领域展现出潜力,在许多任务上与Transformer表现相当,并在长上下文效率上超越后者,但目前尚不能完全取代Transformer。

直接答案

像Mamba这样的状态空间模型是自然语言处理领域下一个重大突破的有力竞争者,但并不能完全取代Transformer。Mamba在多项任务上达到了与Transformer相当的性能,同时在处理长序列时效率显著提升——例如,Mamba-3B在语言建模任务中不仅超越了同等规模的Transformer,甚至能与两倍于自身规模的模型相媲美[4];此外,它还能在保持准确率的前提下,处理比Transformer长数倍的法律文档[2]。然而,在短序列的训练和推理中,Mamba结合Flash Attention的效率不及Transformer[3],而最佳效果往往来自融合两种架构的混合模型[1]

5篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

Mamba 究竟在哪些方面胜过 Transformer?

Mamba最大的优势在于能够高效处理超长序列。与Transformer不同——其注意力机制的计算量随序列长度呈二次方增长(输入翻倍,计算量变为四倍)——Mamba的计算量呈线性增长,因此输入翻倍时计算量仅翻倍。这使得Mamba能够处理比Transformer长数倍的文档,同时在法律文书分类、判例检索等任务上保持甚至超越原有性能[2]

在标准语言建模任务中,Mamba同样表现出极强的竞争力。原始Mamba-3B模型在预训练和下游评估中均优于同尺寸的Transformer,并可与两倍规模的Transformer(如60亿参数的Transformer)相媲美[4]。此外,其推理吞吐量比Transformer高出5倍,这意味着在相同硬件上,Mamba生成文本的速度可提升五倍[4]

那问题来了——为什么不是所有人都改用Mamba?

Mamba并非在所有场景下都更优。在文本重排序这类需要精细理解查询与文档关联性的任务中,Mamba模型的表现与Transformer相当,但其训练和推理效率实际上低于使用Flash Attention(一种针对硬件优化的注意力机制)的Transformer[3]。这意味着对于短序列或注意力机制本身已足够高效的任务,Mamba不仅无法带来速度优势,甚至可能更慢。

另一个局限在于,Mamba的设计虽然使其在长序列处理上表现出色,但也导致它在某些基于内容的推理任务上不如Transformer自然。原始Mamba论文明确指出,这是早期状态空间模型的关键弱点,并引入了“选择性”机制来加以改进[4]。即便有了这些优化,许多语言任务的最佳性能仍来自结合Transformer编码器与Mamba解码器的混合模型,这表明两种架构具有互补优势[1]

真正的突破是两者的混合体吗?

证据表明,混合模型是最具实用性的前进方向。2025年的一项研究发现,将Transformer编码器与Mamba解码器相结合,并采用融合两者输出的特征融合技术,在多种语言任务中持续超越了现有基准水平[1]。这表明,与其说一种架构取代另一种,不如说最佳的自然语言处理系统很可能会同时采用两者——利用Transformer强大的编码能力和基于内容的推理,以及Mamba高效的解码与长上下文处理能力。

即使在Mamba家族内部,新版本也在不断超越旧版本。在文本重排序任务中,Mamba-2在性能和效率上均优于Mamba-1[3],这表明该架构仍在快速演进。关键在于:Mamba对于长上下文和效率敏感型应用而言确实是一项真正的突破,但它并非万能灵药——最大的收益或许来自两种方法的巧妙结合。

本文引用的文献

1

基于Transformer与Mamba的混合模型,用于增强序列建模能力

一种混合Transformer-Mamba模型(Transformer编码器 + Mamba解码器,并带有特征融合)在多种语言任务中持续优于现有基准模型。

2

扩展法律人工智能:基于Mamba与Transformer的法规分类与判例检索基准测试

Mamba能够处理比Transformer长数倍的法律文档,同时在分类和检索性能上保持甚至超越后者,这得益于其线性时间扩展能力。

3

状态空间模型是强大的文本重排序器

Mamba架构在文本重排序任务上达到了与Transformer相当的性能,但在训练和推理效率上不及采用Flash Attention的Transformer;Mamba-2的表现优于Mamba-1。

4

Mamba:基于选择性状态空间的线性时间序列建模

Mamba-3B在语言建模任务中表现优于同尺寸的Transformer模型,并达到了其两倍尺寸Transformer模型的性能水平,同时推理吞吐量提升了5倍,且能够线性扩展以处理百万长度的序列。

5

轻量级图像超分辨率的一阶状态空间模型

改进的Mamba模块(FSSM)在五个基准数据集上提升了图像超分辨率性能,且未增加参数,表明状态空间模型(SSM)可在其原始设计基础上进一步增强。