WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICML 2024候选] MoEMambaMIL:当 Mamba 遇见混合专家,开启全扫描切片分析的新范式
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MoEMambaMIL,一种针对病理全扫描切片(WSI)分析的结构感知选择性状态空间模型框架。通过引入“区域嵌套选择性扫描”和“混合专家(MoE)”机制,该方法在保持线性计算复杂度的同时,有效地捕捉了 WSI 的多分辨率层级结构和复杂的组织形态依赖,在 9 项下游任务中达到 SOTA 性能。

TL;DR

病理全扫描切片(WSI)的分析一直受困于“极长序列”与“复杂空间结构”的权衡。本文提出的 MoEMambaMIL 巧妙地设计了一种区域嵌套选择性扫描机制,并结合了**静态与动态混合专家(MoE)**架构。它不仅继承了 Mamba 模型的线性复杂度优势,还通过结构感知的建模方式,从根本上解决了 WSI 多分辨率信息的层级整合难题,在多项主流 benchmark 上强力刷榜。


痛点深挖:为何 Transformer 和基础 Mamba 玩不转 WSI?

在数字病理领域,一张 WSI 切片通常包含数十亿像素。为了处理这种规模的数据,主流做法是将其切成数千个 Patch,利用多实例学习(MIL)进行特征聚合。

  1. 无序性陷阱:大部分 MIL 方法(如 CLAM)将 Patch 视为无序的“一袋子”特征,丢失了肿瘤微环境中的空间拓扑。
  2. 算力黑洞:Transformer 的 Self-Attention 具有二次方复杂度,面对动辄几万个 Token 的 WSI 序列,显存压力呈指数级增长。
  3. 维度错位:虽然 Mamba 提供了线性复杂度的长序列处理能力,但它是为 1D 序列设计的。简单的“Z字型”或“栅格化”扫描会割裂病理学中 coarse-to-fine(从粗到细)的生物学层级关系。

核心方法论:结构感知与解耦建模

MoEMambaMIL 的核心直觉在于:让模型的扫描顺序符合病理医生的观察逻辑,让不同的专家处理不同尺度的特征。

1. 区域嵌套选择性扫描 (Region-Nested Selective Scan)

不同于传统的顺序扫描,作者提出了一种递归的扫描策略。如下图所示,模型先定位一个粗糙区域 ,然后立即深入其包含的所有高分辨率子区域 。这种深度优先(DFS)式的序列化保留了空间包含的局部性,使得 SSM 的状态演化能直接捕获从细胞细节到组织架构的层级依赖。

需替换为架构图 Figure 2: MoEMambaMIL 整体架构图,展示了从区域嵌套扫描到双 MoE 模块的完整流程。

2. 双重专家机制 (Dual MoE Design)

为了应对 WSI 的异质性,模型设计了两层专家过滤:

  • 静态分辨率专家 (Static Experts):由于 5x, 10x, 20x 放大倍率下的特征各异,模型为每个分辨率分配了独立的 Mamba 编码器。这是基于先验元数据的硬分配,确保了尺度感知的基础特征提取。
  • 动态内容专家 (Dynamic Sparse Experts):在完成层级序列化后,模型利用轻量级路由网络(Gating)将 Token 分发给最擅长处理该语义模式的动态专家。这种按需计算(Top-k activation)极大增强了模型处理复杂病理模式(如癌变区与基质区混合)的灵活性。

实验战绩:全线 SOTA

作者在 TCGA 肾癌、肝癌以及著名的 Camelyon17(乳腺癌转移)三个数据集上进行了验证。

  • 性能飞跃:在配合 UNI 基础模型特征时,MoEMambaMIL 在肾癌亚型分类上的 F1 分数达到了 95.78%
  • MoE 的魔力:消融实验(见下表)显示,去除动态 MoE 模块会导致性能剧烈下降,尤其是在异质性极强的肝癌数据集中,F1 分数狂跌 10%,证明了“专家分工”在医疗影像中的必要性。

实验结果对比 Table 1: MoEMambaMIL 与经典方法(TransMIL, DSMIL)及最新 Mamba 变体在多个数据集上的性能对比。


深度洞察:为什么这种组合有效?

  1. 层级先验的植入:以往的 Vision Mamba 强行用扫描线覆盖图像,而本文通过“区域嵌套”将图像的 2D 树状结构映射到了 1D 序列中。这降低了 SSM 学习长程依赖的难度。
  2. 计算效率与容量的平衡:Sparse MoE 让模型参数量虽然增加,但推理时的激活计算量保持在极低水平,非常契合 WSI 这种超大规模(Gigapixel)场景。
  3. 多尺度证据炼金术:可视化分析表明,粗尺度分辨率提供宽泛的定位,而细尺度专家则负责抑制假阳性并精确勾勒边界。

总结与局限

MoEMambaMIL 是 SSM 进入数字病理领域的一个重要里程碑。它克服了普通 Mamba 对结构信息利用不足的缺陷。 局限性:当前的扫描顺序仍是基于预定义的层级,而非端到端学习;此外,MoE 的训练稳定性仍需通过精心调节 Load balance loss 来维持。

未来,如何将这种结构感知序列扩展到 3D 医疗影像(如 CT/MRI)或多模态场景,将是非常值得期待的方向。

Find Similar Papers

Try Our Examples

  • 检索最近一年内将 Mamba (State Space Models) 应用于数字病理全扫描切片 (WSI) 分析的最新 SOTA 论文。
  • 混合专家模型 (Mixture-of-Experts) 在弱监督学习或多实例学习 (MIL) 任务中的路由策略演进研究有哪些?
  • 探讨除了区域嵌套扫描外,还有哪些针对二维医疗图像序列化以保留空间拓扑结构的先进算法?
Contents
[ICML 2024候选] MoEMambaMIL:当 Mamba 遇见混合专家,开启全扫描切片分析的新范式
1. TL;DR
2. 痛点深挖:为何 Transformer 和基础 Mamba 玩不转 WSI?
3. 核心方法论:结构感知与解耦建模
3.1. 1. 区域嵌套选择性扫描 (Region-Nested Selective Scan)
3.2. 2. 双重专家机制 (Dual MoE Design)
4. 实验战绩:全线 SOTA
5. 深度洞察:为什么这种组合有效?
6. 总结与局限