Mamba 究竟在哪些方面胜过 Transformer?
Mamba最大的优势在于能够高效处理超长序列。与Transformer不同——其注意力机制的计算量随序列长度呈二次方增长(输入翻倍,计算量变为四倍)——Mamba的计算量呈线性增长,因此输入翻倍时计算量仅翻倍。这使得Mamba能够处理比Transformer长数倍的文档,同时在法律文书分类、判例检索等任务上保持甚至超越原有性能[2]。
在标准语言建模任务中,Mamba同样表现出极强的竞争力。原始Mamba-3B模型在预训练和下游评估中均优于同尺寸的Transformer,并可与两倍规模的Transformer(如60亿参数的Transformer)相媲美[4]。此外,其推理吞吐量比Transformer高出5倍,这意味着在相同硬件上,Mamba生成文本的速度可提升五倍[4]。
那问题来了——为什么不是所有人都改用Mamba?
Mamba并非在所有场景下都更优。在文本重排序这类需要精细理解查询与文档关联性的任务中,Mamba模型的表现与Transformer相当,但其训练和推理效率实际上低于使用Flash Attention(一种针对硬件优化的注意力机制)的Transformer[3]。这意味着对于短序列或注意力机制本身已足够高效的任务,Mamba不仅无法带来速度优势,甚至可能更慢。
另一个局限在于,Mamba的设计虽然使其在长序列处理上表现出色,但也导致它在某些基于内容的推理任务上不如Transformer自然。原始Mamba论文明确指出,这是早期状态空间模型的关键弱点,并引入了“选择性”机制来加以改进[4]。即便有了这些优化,许多语言任务的最佳性能仍来自结合Transformer编码器与Mamba解码器的混合模型,这表明两种架构具有互补优势[1]。
真正的突破是两者的混合体吗?
证据表明,混合模型是最具实用性的前进方向。2025年的一项研究发现,将Transformer编码器与Mamba解码器相结合,并采用融合两者输出的特征融合技术,在多种语言任务中持续超越了现有基准水平[1]。这表明,与其说一种架构取代另一种,不如说最佳的自然语言处理系统很可能会同时采用两者——利用Transformer强大的编码能力和基于内容的推理,以及Mamba高效的解码与长上下文处理能力。
即使在Mamba家族内部,新版本也在不断超越旧版本。在文本重排序任务中,Mamba-2在性能和效率上均优于Mamba-1[3],这表明该架构仍在快速演进。关键在于:Mamba对于长上下文和效率敏感型应用而言确实是一项真正的突破,但它并非万能灵药——最大的收益或许来自两种方法的巧妙结合。
本文引用的文献
基于Transformer与Mamba的混合模型,用于增强序列建模能力
一种混合Transformer-Mamba模型(Transformer编码器 + Mamba解码器,并带有特征融合)在多种语言任务中持续优于现有基准模型。
扩展法律人工智能:基于Mamba与Transformer的法规分类与判例检索基准测试
Mamba能够处理比Transformer长数倍的法律文档,同时在分类和检索性能上保持甚至超越后者,这得益于其线性时间扩展能力。
状态空间模型是强大的文本重排序器
Mamba架构在文本重排序任务上达到了与Transformer相当的性能,但在训练和推理效率上不及采用Flash Attention的Transformer;Mamba-2的表现优于Mamba-1。
Mamba:基于选择性状态空间的线性时间序列建模
Mamba-3B在语言建模任务中表现优于同尺寸的Transformer模型,并达到了其两倍尺寸Transformer模型的性能水平,同时推理吞吐量提升了5倍,且能够线性扩展以处理百万长度的序列。
轻量级图像超分辨率的一阶状态空间模型
改进的Mamba模块(FSSM)在五个基准数据集上提升了图像超分辨率性能,且未增加参数,表明状态空间模型(SSM)可在其原始设计基础上进一步增强。
