像Mamba这样的状态空间模型会成为NLP的下一个突破吗？

Mamba 究竟在哪些方面胜过 Transformer？

Mamba最大的优势在于能够高效处理超长序列。与Transformer不同——其注意力机制的计算量随序列长度呈二次方增长（输入翻倍，计算量变为四倍）——Mamba的计算量呈线性增长，因此输入翻倍时计算量仅翻倍。这使得Mamba能够处理比Transformer长数倍的文档，同时在法律文书分类、判例检索等任务上保持甚至超越原有性能[2]。

在标准语言建模任务中，Mamba同样表现出极强的竞争力。原始Mamba-3B模型在预训练和下游评估中均优于同尺寸的Transformer，并可与两倍规模的Transformer（如60亿参数的Transformer）相媲美[4]。此外，其推理吞吐量比Transformer高出5倍，这意味着在相同硬件上，Mamba生成文本的速度可提升五倍[4]。

那问题来了——为什么不是所有人都改用Mamba？

Mamba并非在所有场景下都更优。在文本重排序这类需要精细理解查询与文档关联性的任务中，Mamba模型的表现与Transformer相当，但其训练和推理效率实际上低于使用Flash Attention（一种针对硬件优化的注意力机制）的Transformer[3]。这意味着对于短序列或注意力机制本身已足够高效的任务，Mamba不仅无法带来速度优势，甚至可能更慢。

另一个局限在于，Mamba的设计虽然使其在长序列处理上表现出色，但也导致它在某些基于内容的推理任务上不如Transformer自然。原始Mamba论文明确指出，这是早期状态空间模型的关键弱点，并引入了“选择性”机制来加以改进[4]。即便有了这些优化，许多语言任务的最佳性能仍来自结合Transformer编码器与Mamba解码器的混合模型，这表明两种架构具有互补优势[1]。

真正的突破是两者的混合体吗？

证据表明，混合模型是最具实用性的前进方向。2025年的一项研究发现，将Transformer编码器与Mamba解码器相结合，并采用融合两者输出的特征融合技术，在多种语言任务中持续超越了现有基准水平[1]。这表明，与其说一种架构取代另一种，不如说最佳的自然语言处理系统很可能会同时采用两者——利用Transformer强大的编码能力和基于内容的推理，以及Mamba高效的解码与长上下文处理能力。

即使在Mamba家族内部，新版本也在不断超越旧版本。在文本重排序任务中，Mamba-2在性能和效率上均优于Mamba-1[3]，这表明该架构仍在快速演进。关键在于：Mamba对于长上下文和效率敏感型应用而言确实是一项真正的突破，但它并非万能灵药——最大的收益或许来自两种方法的巧妙结合。

本文引用的文献

基于Transformer与Mamba的混合模型，用于增强序列建模能力

一种混合Transformer-Mamba模型（Transformer编码器 + Mamba解码器，并带有特征融合）在多种语言任务中持续优于现有基准模型。

2025 · Xiaocui Zhu, Qunsheng Ruan, Sai Qian, Miaohui Zhang · Scientific reports

原文

扩展法律人工智能：基于Mamba与Transformer的法规分类与判例检索基准测试

Mamba能够处理比Transformer长数倍的法律文档，同时在分类和检索性能上保持甚至超越后者，这得益于其线性时间扩展能力。

2025 · Anuraj Maurya · arXiv.org

原文

状态空间模型是强大的文本重排序器

Mamba架构在文本重排序任务上达到了与Transformer相当的性能，但在训练和推理效率上不及采用Flash Attention的Transformer；Mamba-2的表现优于Mamba-1。

2024 · Zhichao Xu, J. Yan, Ashim Gupta, Vivek Srikumar · Workshop on Representation Learning for NLP

原文

Mamba：基于选择性状态空间的线性时间序列建模

Mamba-3B在语言建模任务中表现优于同尺寸的Transformer模型，并达到了其两倍尺寸Transformer模型的性能水平，同时推理吞吐量提升了5倍，且能够线性扩展以处理百万长度的序列。

2023 · Albert Gu, Tri Dao · arXiv (Cornell University)

WisPaper

原文

轻量级图像超分辨率的一阶状态空间模型

改进的Mamba模块（FSSM）在五个基准数据集上提升了图像超分辨率性能，且未增加参数，表明状态空间模型（SSM）可在其原始设计基础上进一步增强。

2025 · Yujie Zhu, Xinyi Zhang, Yekai Lu, Guang Yang, Faming Fang, Guixu Zhang · IEEE International Conference on Acoustics, Speech, and Signal Processing

原文