WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
MOIR:拒绝“脑补”,信息路由如何终结视觉语言模型的文本偏见
总结
问题
方法
结果
要点
摘要

本文提出了 MOIR(Multi-modal Information Router),一种旨在解决多模态大模型(VLM)中“模态主导”(Modality Dominance)问题的信息融合方法。该方法通过在融合前识别低信息量模态 Token 并路由补全信息,在 ScienceQA 和 MMBench-Video 等基准上实现了更平衡的模态关注度及更强的鲁棒性。

TL;DR

即使视觉图像模糊不清,现在的视觉语言模型(VLMs)往往也能通过文字“猜”出答案。这种现象被称为模态主导(Modality Dominance)。本文介绍的 MOIR (Multi-modal Information Router) 提出了一种新颖的诊疗方案:不再只是通过限制 Attention 来强迫模型看图,而是在融合之前,利用数学手段找出“信息贫血”的 Token,并从其他模态中“借调”能量,使模型真正实现证据支撑的多模态推理。

核心速览

在多模态理解中,模型往往倾向于走捷径。例如,当问题是“图中物体是什么颜色?”时,如果文本语境暗示了答案,模型可能根本不看图。

  • 定位:针对 VLM 融合瓶颈的架构优化,属于 Infomation-level Fusion 的创新。
  • 核心贡献:定义了基于 SVD 的信息密度量化方法,并实现了跨模态的信息动态路由。

痛点深挖:为什么只调 Attention 是治标不治本?

以往的研究(如重塑 Loss 或梯度均衡)大多假设:模型之所以不看某些模态,是因为它“懒”,所以要通过算法强制它分配更多资源(Attention)。

但作者指出,现实场景中模态间的**信息强度(Information Density)**是不对等的。视觉 Token 可能天然就包含大量噪声或冗余,即使你强迫 LLM 去关注它,它也无法提供有用的信号。正如论文所言:“Attention 只能决定模型关注哪里,却不能富化缺失或模糊的信息。”

方法论详解:MOIR 的“精准扶贫”机制

MOIR 的核心思想是在 LLM 解码器处理之前,先对 Token 进行“体检”和“输血”。

1. 识别“信息贫血” Token

作者利用奇异值分解(SVD)来衡量通道的重要性。通过公式: 识别出那些对表示空间贡献极低的通道。这些通道被视为“低信息量”的候选者。

2. 跨模态信息路由

一旦确定了哪些通道“掉链子”,MOIR 就会启动路由机制,从另一个模态中获取互补信息进行融合: 模型架构图 这种设计允许模型在保留原始模态特征的同时,利用 learnable routing gates 增强其表达能力。

实验与结果:拒绝盲目猜测

在性能对比中,MOIR 在需要强视觉锚定的任务(如 MMBench-Video)上表现尤为出色。

核心证据 1:抗攻击鲁棒性

研究人员做了一个非常硬核的测试:如果把图片换成纯噪声,模型还会给出同样的答案吗?

  • Baseline:62.13% 的情况下预测不变(说明它是靠文字蒙的)。
  • MOIR:该比例下降到 29.63%。这说明 MOIR 显著增强了模型对视觉证据的依赖性。

核心证据 2:多模态关注度均衡

实验结果对比 数据表明,MOIR 一方面提升了各模态 Token 的秩(Rank),意味着信息量变大了;另一方面降低了 MDI 分数,证明模态间的倾斜得到了缓解。

深度洞察:更真实的推理逻辑

在定性分析中(见图 3),我们可以清晰看到,基础模型在回答视频问题时往往会给出“我看视频里有内容”这种废话,或者复述问题。而 MOIR 能够准确定位到视频中的具体细节(如“Paypal Honey”插件),这正是信息路由带来的视觉锚定力

总结与展望

MOIR 证明了:要在 VLM 中解决模态偏差,必须先解决信息不对等。 尽管目前该方法在特定任务(如选择题为主的 ScienceQA)上提升相对有限,但它为构建更稳健、不被文字套路所误导的真正的“视觉大模型”提供了关键的路径。未来的方向可能在于如何将这种路由机制扩展到更多模态(如音频、深度图)的极其不平衡场景中。

发现相似论文

试试这些示例

  • 查找最近其他除了调整 Attention 权重外,通过特征增强或显式信息重构来解决多模态大模型模态坍缩问题的论文。
  • 哪篇论文最早利用奇异值分解 (SVD) 或有效秩 (Effective Rank) 来量化多模态表示中的信息丢失,本文是如何将该度量转化为实时路由机制的?
  • 有哪些研究将类似 MOIR 的信息路由或动态特征交换机制应用到了医疗影像分析或自动驾驶等对感知鲁棒性要求极高的多模态领域?
目录
MOIR:拒绝“脑补”,信息路由如何终结视觉语言模型的文本偏见
1. TL;DR
2. 核心速览
3. 痛点深挖:为什么只调 Attention 是治标不治本?
4. 方法论详解:MOIR 的“精准扶贫”机制
4.1. 1. 识别“信息贫血” Token
4.2. 2. 跨模态信息路由
5. 实验与结果:拒绝盲目猜测
5.1. 核心证据 1:抗攻击鲁棒性
5.2. 核心证据 2:多模态关注度均衡
6. 深度洞察:更真实的推理逻辑
7. 总结与展望