Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

[EMNLP 2025] 它们看见了，但却选择了视而不见：揭秘 VLM 的仲裁失效

总结

问题

方法

结果

要点

摘要

本文针对多模态大模型（VLM）在视觉-语言冲突下的失效问题，提出了“仲裁失败而非感知盲视”的核心观点。通过对 10 个 VLM（7B-72B）进行深入分析，揭示了模型虽然能正确编码视觉特征，但在最终决策中会被语言先验（Prior）覆盖。

TL;DR

如果一张图片里有一根蓝色的香蕉，VLM 却告诉你它是“黄色”的，这到底是因为它“睁眼瞎”，还是因为它“脑补”过度？本文通过对 10 个主流 VLM（包括 Qwen2-VL, InternVL2 等）的解剖发现：模型其实看得很清楚，但在最后做决定时，语言经验（先验）干掉了视觉证据。 作者称之为“编码-对齐解离”（Encoding–Grounding Dissociation）。

视觉与语言的“拔河”：仲裁失败而非感知盲视

长期以来，人们认为 VLM 的“幻觉”是因为视觉编码器（Vision Encoder）不够强。但本文作者通过 MAC (Multimodal Arbitration Crossover) 分析 发现了一个有趣的现象：在模型的前半部分，视觉信号和语言先验一直在激烈竞争。

通过 Logit Lens（一种查看模型中间层“想法”的技术），我们可以看到视觉信号（如 "Blue"）的得分在某一层会突然超过语言先验（如 "Yellow"）。但即便如此，在最后几层，语言先验有时会再次反转结果。

MAC 轨迹图 图中蓝色曲线代表视觉信号，橙色代表先验信号。在很多失败案例中，蓝色曲线其实已经冲上去了，但在结尾处却被强行拽了下来。

核心发现：模型内心的“潜台词”

为了证明模型“看清了”，作者做了两组实验：

线性探测 (Linear Probing)：在模型仅 10% 深度的地方，就能以 >0.86 的 AUC 分类出物体的真实颜色。
L2 距离测量：作者发现，即使在模型回答错误（选了先验）的情况下，其中间层隐藏状态对“蓝色香蕉”和“黄色香蕉”的区别编码强度，竟然和回答正确时几乎一样。

结论很扎心： 失败的样本并不是因为编码不足，而是因为模型在进行“仲裁”时，选择了相信以前读过的文本，而不是眼前的图像。

它是如何“想”的？全序列激活补丁

在文本模型中，改变最后一个 Token 的状态往往就能改变输出。但在 VLM 中，作者发现这招失灵了（成功率仅 1%）。

实验证明，视觉信息是分布式嵌入在所有图像 Token 中的。必须进行全序列补丁 (Full-sequence Patching)，即把整个图像序列的隐藏状态替换掉，才能有效改变模型的决策（ flip 率达到 60-84%）。

激活补丁实验

诊断后的手术：激活转向 (Activation Steering)

既然我们知道了模型在哪些层发生了动摇，那能不能在推理时“拉它一把”？作者测试了两种无需训练的方案：

线性转向 (Linear Steering)：直接给中间层加上一个“视觉修正”方向的偏移量。
SAE 引导的残差转向：利用稀疏自编码器（SAE）提取出专门负责“蓝色”或“视觉证据”的特征，然后针对性地放大这些特征，同时抑制“黄色”等语言先验特征。

手术效果： 在 InternVL2 和 Qwen2-VL 等模型上，视觉对齐准确率直接提升了 +3.4% 到 +3.8%。更重要的是，通过 SAE 的精准打击，这种提升几乎不会伤害模型的其他能力。

总结与价值

这项研究彻底反驳了“VLM 幻觉全怪 Vision Encoder”的简单想法。它向我们展示了 VLM 作为一个“缝合怪”模型内部的权力斗争：视觉信号必须经过语言模型的重重审核。

对于未来的开发者来说，这意味着我们可能不需要更大、更贵的视觉编码器，而是需要一种更好的多模态融合/仲裁策略。让模型学会“实事求是”，可能比让它“过目不忘”更重要。

局限性

目前的研究主要基于合成的受控数据集（如 Counterfact 颜色/尺寸任务）。在处理真实世界中更复杂、更模糊的视觉冲突时，这种“仲裁机制”是否依然如此清晰，还有待进一步验证。

发现相似论文

试试这些示例

查找最近其他探讨多模态大模型(VLM)中视觉特征编码与语言先验冲突(Vision-Language Conflict)的论文。
哪篇论文最早在 Transformer 中提出了 Logit Lens Probing 方法，本文在 VLM 上的多 Token 扩展与其有何不同？
有哪些研究将基于稀疏自编码器(SAE)的特征转向技术应用到了缓解多模态模型幻觉(Hallucination)的任务中？

[EMNLP 2025] 它们看见了，但却选择了视而不见：揭秘 VLM 的仲裁失效

1. TL;DR

2. 视觉与语言的“拔河”：仲裁失败而非感知盲视

3. 核心发现：模型内心的“潜台词”

4. 它是如何“想”的？全序列激活补丁

5. 诊断后的手术：激活转向 (Activation Steering)

6. 总结与价值

6.1. 局限性