ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning

ABMamba：突破长视频理解瓶颈，三倍推理速度的全开源 Mamba 视频大模型

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ABMamba，这是首个全开源的视频多模态大语言模型（MLLM）。该模型将具有线性计算复杂度的 Mamba 作为语言后端，并引入了对齐分层双向扫描（AHBS）模块，在 VATEX 和 MSR-VTT 任务中实现了 SOTA 性能，且推理吞吐量提升了约 3 倍。

TL;DR

视频理解任务长期受困于 Transformer 架构的“二次方复杂度陷阱”。Keio 大学等机构提出的 ABMamba 首次证明了，通过 Deep State Space Models (Deep SSMs) 和一种创新的 AHBS（对齐分层双向扫描） 模块，我们可以在大幅降低资源开销的同时，获得超越传统 Transformer 模型的视频描述（Video Captioning）性能。

核心战绩：

速度提升：3 倍于基线模型的吞吐量（Throughput）。
显存极致优化：推理显存增加量减少 77%。
全开源：代码、模型权重、数据集完全开放。

1. 痛点：被牺牲的“细节”

在处理视频时，现有的 MLLM 通常面临两难境地：

原生 Transformer：模型处理序列长度增加时，计算量呈平方级增长，导致长视频处理极其缓慢甚至 OOM。
过度压缩：为了规避上述问题，许多模型（如 Video-XL）对 Token 进行大幅下采样，这虽然快了，但却把视频中转瞬即逝的关键动作“压缩”没了。

作者认为，视频理解的本质是处理多尺度的时间动态。我们要快，但不能通过牺牲分辨率来换取。

2. 核心架构：AHBS 模块的物理直觉

ABMamba 的架构由三部分组成：双视觉编码器（SigLIP + DINOv2）、AHBS 模块、以及 Mamba 语言后端。

模型架构图

为什么 AHBS 有效？

AHBS（Aligned Hierarchical Bidirectional Scan）模块的设计灵感来自于人类观察视频的方式：我们既会关注整体趋势，也会捕捉瞬间动作。

多分辨率扫描 (Hierarchical)：模块设置了 $M$ 条并行路径，每一条路径以不同的步长（Stride）对时间轴进行采样。这保证了模型能同时捕捉到“慢动作”和“全局趋势”。
双向传播 (Bidirectional)：传统的 SSM 是单向的，但在视觉中，后续帧对于理解前序帧同样重要。AHBS 通过前向和后向双向扫描，打破了因果局限，增强了时空建模能力。

AHBS 模块细节

3. 实验结果：效率与精度的双重突破

在标准测试集 VATEX 和 MSR-VTT 上，ABMamba 展示了极强的竞争力，特别是在 BLEU4 这一关键评价指标上显著领先于同级别的 Transformer 模型。

实验结果对比表

深度发现 (Ablation Study)：

双向扫描的价值：移除反向扫描后（w/o backward scan），CIDEr 分数大幅下降，证明双向感知在视频语义理解中不可或缺。
多尺度分支的价值：实验证明，当并行分支 $M = 3$ 时效果最佳，验证了多分辨率建模的必要性。

4. 客观分析：它的局限性

尽管 ABMamba 表现优异，但作者也在文中坦诚地进行了 Error Analysis：

幻觉问题 (Hallucinations)：在 100 个典型失败案例中，约 68% 属于对象幻觉（Object Hallucination）。
场景遗漏：在处理包含多个不连贯场景的复杂视频时，ABMamba 有时会倾向于只描述其中一个局部场景。

5. 总结与展望

ABMamba 的出现，为多模态 LLM 提供了一条除 Transformer 之外的康庄大道。它证明了基于 SSM 的线性复杂度模型在处理高帧率、长时程视频任务时，具有天然的能效比优势。

对于开发者而言，ABMamba 的开源不仅是一个模型，更是对 Mamba 执行端到端视频建模的一次有力背书。在未来实时交互机器人、自动驾驶感知等对延迟极度敏感的领域，这种架构将极具潜力。

Find Similar Papers

Try Our Examples

查找最近一年内将 Mamba 架构应用于长视频理解（Long-video Understanding）的其他开源多模态模型。
追溯 Vision Mamba (Vim) 的双向扫描机制，并研究本文的 AHBS 模块在其基础上做了哪些针对视频序列的改进？
探究在大规模视频指令微调任务中，State Space Model (SSM) 与 Transformer 在处理时间一致性（Temporal Consistency）上的理论差异。

Contents

ABMamba：突破长视频理解瓶颈，三倍推理速度的全开源 Mamba 视频大模型

1. TL;DR

2. 1. 痛点：被牺牲的“细节”

3. 2. 核心架构：AHBS 模块的物理直觉

3.1. 为什么 AHBS 有效？

4. 3. 实验结果：效率与精度的双重突破

5. 4. 客观分析：它的局限性

6. 5. 总结与展望