WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
ABMamba:突破长视频理解瓶颈,三倍推理速度的全开源 Mamba 视频大模型
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 ABMamba,这是首个全开源的视频多模态大语言模型(MLLM)。该模型将具有线性计算复杂度的 Mamba 作为语言后端,并引入了对齐分层双向扫描(AHBS)模块,在 VATEX 和 MSR-VTT 任务中实现了 SOTA 性能,且推理吞吐量提升了约 3 倍。

TL;DR

视频理解任务长期受困于 Transformer 架构的“二次方复杂度陷阱”。Keio 大学等机构提出的 ABMamba 首次证明了,通过 Deep State Space Models (Deep SSMs) 和一种创新的 AHBS(对齐分层双向扫描) 模块,我们可以在大幅降低资源开销的同时,获得超越传统 Transformer 模型的视频描述(Video Captioning)性能。

核心战绩

  • 速度提升:3 倍于基线模型的吞吐量(Throughput)。
  • 显存极致优化:推理显存增加量减少 77%。
  • 全开源:代码、模型权重、数据集完全开放。

1. 痛点:被牺牲的“细节”

在处理视频时,现有的 MLLM 通常面临两难境地:

  1. 原生 Transformer:模型处理序列长度增加时,计算量呈平方级增长,导致长视频处理极其缓慢甚至 OOM。
  2. 过度压缩:为了规避上述问题,许多模型(如 Video-XL)对 Token 进行大幅下采样,这虽然快了,但却把视频中转瞬即逝的关键动作“压缩”没了。

作者认为,视频理解的本质是处理多尺度的时间动态。我们要快,但不能通过牺牲分辨率来换取。

2. 核心架构:AHBS 模块的物理直觉

ABMamba 的架构由三部分组成:双视觉编码器(SigLIP + DINOv2)、AHBS 模块、以及 Mamba 语言后端。

模型架构图

为什么 AHBS 有效?

AHBS(Aligned Hierarchical Bidirectional Scan)模块的设计灵感来自于人类观察视频的方式:我们既会关注整体趋势,也会捕捉瞬间动作。

  • 多分辨率扫描 (Hierarchical):模块设置了 条并行路径,每一条路径以不同的步长(Stride)对时间轴进行采样。这保证了模型能同时捕捉到“慢动作”和“全局趋势”。
  • 双向传播 (Bidirectional):传统的 SSM 是单向的,但在视觉中,后续帧对于理解前序帧同样重要。AHBS 通过前向和后向双向扫描,打破了因果局限,增强了时空建模能力。

AHBS 模块细节

3. 实验结果:效率与精度的双重突破

在标准测试集 VATEX 和 MSR-VTT 上,ABMamba 展示了极强的竞争力,特别是在 BLEU4 这一关键评价指标上显著领先于同级别的 Transformer 模型。

实验结果对比表

深度发现 (Ablation Study)

  • 双向扫描的价值:移除反向扫描后(w/o backward scan),CIDEr 分数大幅下降,证明双向感知在视频语义理解中不可或缺。
  • 多尺度分支的价值:实验证明,当并行分支 时效果最佳,验证了多分辨率建模的必要性。

4. 客观分析:它的局限性

尽管 ABMamba 表现优异,但作者也在文中坦诚地进行了 Error Analysis

  • 幻觉问题 (Hallucinations):在 100 个典型失败案例中,约 68% 属于对象幻觉(Object Hallucination)。
  • 场景遗漏:在处理包含多个不连贯场景的复杂视频时,ABMamba 有时会倾向于只描述其中一个局部场景。

5. 总结与展望

ABMamba 的出现,为多模态 LLM 提供了一条除 Transformer 之外的康庄大道。它证明了基于 SSM 的线性复杂度模型在处理高帧率、长时程视频任务时,具有天然的能效比优势

对于开发者而言,ABMamba 的开源不仅是一个模型,更是对 Mamba 执行端到端视频建模的一次有力背书。在未来实时交互机器人、自动驾驶感知等对延迟极度敏感的领域,这种架构将极具潜力。

Find Similar Papers

Try Our Examples

  • 查找最近一年内将 Mamba 架构应用于长视频理解(Long-video Understanding)的其他开源多模态模型。
  • 追溯 Vision Mamba (Vim) 的双向扫描机制,并研究本文的 AHBS 模块在其基础上做了哪些针对视频序列的改进?
  • 探究在大规模视频指令微调任务中,State Space Model (SSM) 与 Transformer 在处理时间一致性(Temporal Consistency)上的理论差异。
Contents
ABMamba:突破长视频理解瓶颈,三倍推理速度的全开源 Mamba 视频大模型
1. TL;DR
2. 1. 痛点:被牺牲的“细节”
3. 2. 核心架构:AHBS 模块的物理直觉
3.1. 为什么 AHBS 有效?
4. 3. 实验结果:效率与精度的双重突破
5. 4. 客观分析:它的局限性
6. 5. 总结与展望