本文系统性地研究了全模态大语言模型(OLLMs)中的“模态偏好”现象,提出了基于冲突的评测基准和 MSR 指标。研究发现 OLLMs 普遍存在明显的“视觉偏好”和对音频的忽视,并在多个 SOTA 模型(如 Gemini 3.1, Qwen2.5-Omni)上验证了该发现。
TL;DR
在传统的视觉语言模型(VLM)时代,我们总担心模型会“盲从”文本(Text-dominance)。然而,中国科学院大学等机构的最新研究发现,随着 Gemini 3 和 Qwen-Omni 等全模态模型(OLLMs)的兴起,风向变了:模型开始展现出极强的视觉偏好 (Visual Preference),并体系化地忽略音频信号。研究通过对模型内部层的“脑电图”式探测,揭示了这种偏好是如何在中间层生成的,并利用这一信号成功诊断了跨模态幻觉。
背景定位:从“拼接”到“原生统一”
早期的多模态模型通常像“缝合怪”,用独立的编码器连接 LLM。而新一代全模态大模型(OLLMs)追求原生集成 (Native Integration),将图像、声音、文本投影到统一的表征空间。这种融合带来了一个关键问题:当不同感官的信息发生冲突时,模型会听谁的?
痛点深挖:谁在左右模型的决策?
以往我们认为模型是“文字党”,即如果图像和文本任务冲突,模型倾向于选文本。但作者发现,对于全模态模型,这个假设不再成立。不受控的模态偏好不仅反映了训练数据的失衡,更是跨模态幻觉 (Cross-modal Hallucination) 的罪魁祸首——即模型因为过度信任某种模态,而捏造了并不存在的事实。
核心机制:三模态冲突实验与线性探测
1. 冲突实验设计
作者构建了一个极具创意的三模态冲突数据集(见下图)。例如:文字说“鸟叫”,图片显示“狮子”,音频却是“汽车引擎声”。

通过计算 模态选择率 (Modality Selection Rate, MSR),研究发现大部分模型(如 Gemini 3.1 Pro)表现出压倒性的视觉偏好(MSR 达 72%),而音频 MSR 往往不足 10%。
2. 偏好是如何“涌现”的?
为了理解偏好的成因,作者采用了 层级探测 (Layer-wise Probing) 技术。在模型的每一层解码器后面插入一个微小的线性分类器(MLP),试图预测模型最终会选哪种模态。

物理直觉解释:
- 浅层(0-30%):探测器准确率极低,说明模型还在处理底层特征。
- 中后层(40-70%):探测准确率陡增,这意味着模型在此阶段完成了“内部辩论”,确定了偏好哪种模态。
- 末层:准确率略微回落,因为表征开始向具体的 Token 概率转换。
实验战绩:幻觉诊断的利器
研究发现,当模型发生幻觉时,内部对“干扰模态”的偏好权重会异常升高。通过监控这种内部偏好信号,作者提出了一种无需任务特定数据、无需额外训练的幻觉监测方法。

在 POPE 基准测试中,该方法捕获幻觉的 AUROC 达到了恐怖的 0.96 (Qwen2.5-Omni-7B)。这证明了:想要解决幻觉,不一定要在输出端查错,审视模型中间层的决策“偏心”程度可能更高效。
深度洞察与总结
核心价值: 这篇论文打破了“文本主导”的思维定式,揭示了全模态模型在统一空间下的权力结构:视觉最强,文本次之,音频沦为配角。
局限性与未来展望:
- 局限性:该研究主要基于分类任务,对于生成式长文本中的细粒度模态竞争仍需进一步挖掘。
- 启示:未来的模型训练(如 SFT 或 RLHF)或许应该显式地引入“模态平衡”目标,或者在推理阶段利用层级探测信号动态矫正偏差,从而构建更可靠的 AI。
