本文提出了 MOIR(Multi-modal Information Router),一种旨在解决多模态大模型(VLM)中“模态主导”(Modality Dominance)问题的信息融合方法。该方法通过在融合前识别低信息量模态 Token 并路由补全信息,在 ScienceQA 和 MMBench-Video 等基准上实现了更平衡的模态关注度及更强的鲁棒性。
TL;DR
即使视觉图像模糊不清,现在的视觉语言模型(VLMs)往往也能通过文字“猜”出答案。这种现象被称为模态主导(Modality Dominance)。本文介绍的 MOIR (Multi-modal Information Router) 提出了一种新颖的诊疗方案:不再只是通过限制 Attention 来强迫模型看图,而是在融合之前,利用数学手段找出“信息贫血”的 Token,并从其他模态中“借调”能量,使模型真正实现证据支撑的多模态推理。
核心速览
在多模态理解中,模型往往倾向于走捷径。例如,当问题是“图中物体是什么颜色?”时,如果文本语境暗示了答案,模型可能根本不看图。
- 定位:针对 VLM 融合瓶颈的架构优化,属于 Infomation-level Fusion 的创新。
- 核心贡献:定义了基于 SVD 的信息密度量化方法,并实现了跨模态的信息动态路由。
痛点深挖:为什么只调 Attention 是治标不治本?
以往的研究(如重塑 Loss 或梯度均衡)大多假设:模型之所以不看某些模态,是因为它“懒”,所以要通过算法强制它分配更多资源(Attention)。
但作者指出,现实场景中模态间的**信息强度(Information Density)**是不对等的。视觉 Token 可能天然就包含大量噪声或冗余,即使你强迫 LLM 去关注它,它也无法提供有用的信号。正如论文所言:“Attention 只能决定模型关注哪里,却不能富化缺失或模糊的信息。”
方法论详解:MOIR 的“精准扶贫”机制
MOIR 的核心思想是在 LLM 解码器处理之前,先对 Token 进行“体检”和“输血”。
1. 识别“信息贫血” Token
作者利用奇异值分解(SVD)来衡量通道的重要性。通过公式: 识别出那些对表示空间贡献极低的通道。这些通道被视为“低信息量”的候选者。
2. 跨模态信息路由
一旦确定了哪些通道“掉链子”,MOIR 就会启动路由机制,从另一个模态中获取互补信息进行融合:
这种设计允许模型在保留原始模态特征的同时,利用 learnable routing gates 增强其表达能力。
实验与结果:拒绝盲目猜测
在性能对比中,MOIR 在需要强视觉锚定的任务(如 MMBench-Video)上表现尤为出色。
核心证据 1:抗攻击鲁棒性
研究人员做了一个非常硬核的测试:如果把图片换成纯噪声,模型还会给出同样的答案吗?
- Baseline:62.13% 的情况下预测不变(说明它是靠文字蒙的)。
- MOIR:该比例下降到 29.63%。这说明 MOIR 显著增强了模型对视觉证据的依赖性。
核心证据 2:多模态关注度均衡
数据表明,MOIR 一方面提升了各模态 Token 的秩(Rank),意味着信息量变大了;另一方面降低了 MDI 分数,证明模态间的倾斜得到了缓解。
深度洞察:更真实的推理逻辑
在定性分析中(见图 3),我们可以清晰看到,基础模型在回答视频问题时往往会给出“我看视频里有内容”这种废话,或者复述问题。而 MOIR 能够准确定位到视频中的具体细节(如“Paypal Honey”插件),这正是信息路由带来的视觉锚定力。
总结与展望
MOIR 证明了:要在 VLM 中解决模态偏差,必须先解决信息不对等。 尽管目前该方法在特定任务(如选择题为主的 ScienceQA)上提升相对有限,但它为构建更稳健、不被文字套路所误导的真正的“视觉大模型”提供了关键的路径。未来的方向可能在于如何将这种路由机制扩展到更多模态(如音频、深度图)的极其不平衡场景中。
