WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICLR 2026] AVAR:告别推理时的“视而不见”,重塑多模态冷启动的全局视野
总结
问题
方法
结果
要点
摘要

本文提出了 AVAR(Attention-Guided Visual Anchoring and Reflection)框架,旨在优化多模态大语言模型(MLRMs)的冷启动阶段。通过引入视觉注意力评分(VAS),作者发现推理能力与视觉注意力呈极强正相关(r=0.9616),并基于此开发了包含数据合成、注意力引导训练和奖励建模的全栈方案,在 Qwen2.5-VL-7B 上实现了 7.0% 的平均性能提升。

TL;DR

在多模态推理模型(MLRMs)的训练中,开发者常发现一个尴尬的现象:哪怕喂了再多带图的推理数据,模型推理时还是容易“跑偏”。本文揭示了罪魁祸首——懒惰注意力局部化 (Lazy Attention Localization)。作者提出的 AVAR 框架,通过在冷启动阶段强制模型进行“视觉回看”和注意力正向引导,将 Qwen2.5-VL 的推理能力提升了 7%,尤其在几何数学推理(MathVision)上狂飙 12.2%。

核心速览:为什么你的模型“视而不见”?

目前的 MLRM 研究(如 DeepSeek-R1 系列的视觉版)大多聚焦于强化学习(RL),但却忽略了 RL 前的冷启动(Cold-start)

作者定义了一个量化指标 VAS (Visual Attention Score),用于衡量推理过程中模型对“图像 Token”相对于“系统 Token”的关注度。

  • 惊人发现 1:推理性能与 VAS 的相关性高达 0.9616。
  • 惊人发现 2:传统多模态冷启动居然无法提升 VAS,模型依然死盯着系统提示词(Lazy Attention)。反倒是纯文本冷启动能稍微好点。

视觉注意力与性能相关性及分布

痛点深挖:沉溺于“文字游戏”的 Reasoning

现有模型在进行 Chain-of-Thought (CoT) 时,往往在第一步看了图,后面几十步都在针对文本进行逻辑推演。随着推理链变长,模型逐渐忘记了图像的存在,产生严重的“视觉幻觉”。这本质上是因为模型发现关注系统 Token 的 Loss 下降最快,产生了诱导性的 Inductive Bias。

AVAR 方法论:强制“视觉回看”的艺术

作者提出的 AVAR (Attention-Guided Visual Anchoring and Reflection) 由三个硬核模块组成:

1. 视觉锚定数据合成 (VARD)

不再只是“描述+推理”,而是在推理链中植入视觉锚点

  • Step 1: Gemini 2.5-Pro 生成高保真描述。
  • Step 2: Qwen3-235B 生成带反思的推理链。
  • Step 3: 强制插入诸如“回到图像中看那个三角形”或“再次检查坐标轴”的语句。这就像给模型做“视力纠正操”。

AVAR 数据合成流程图

2. 注意力引导训练目标 (AGTO)

在 Loss 函数中直接动刀:

  • 增强项 ():强制模型提高对图像 Token 的注意力概率分布。
  • 抑制项 ():惩罚模型过度关注无意义的系统 Token。

3. RL 阶段的视觉奖励塑形 (VARS)

在强化学习(GRPO 算法)中,除了看答案对不对,还要看模型在推理过程中是否保持了足量的视觉注意力。如果模型只靠语言先验蒙对答案,奖励会打折扣。

实验战绩:全线飘红

在 Qwen2.5-VL-7B 基座上,AVAR-Thinker 展现了霸榜实力:

  • 几何推理(MathVision):25.2 37.4 (+12.2%)。
  • 抗幻觉(HallusionBench):50.7 59.5 (+8.8%)。
  • 平均性能:实现了 7.0% 的净增,超过了专门针对数学优化的 Vision-R1 和 ThinkLite-VL。

实验结果对比表

深度洞察:从 Narrow 到 Panoramic

通过 VAS 指标的演化(Table 4),我们可以看到 VAS 从 7.5(Narrow-View)一路上升到 18.9(Panoramic-View)。这证明了 AVAR 确实让模型从“管中窥豹”变成了“全景洞察”。

局限性分析:虽然 AVAR 极大提升了推理质量,但强制插入视觉锚点可能会略微增加推理生成长度。此外,目前对系统 Token 的抑制程度( 参数)仍需由人工经验根据具体基座模型细调。

总结

AVAR 的成功告诉我们,多模态推理的瓶颈可能不在于视觉编码器(Vision Encoder)不够强,而在于 Reasoning 引擎学会了逃避视觉输入。通过“注意力重塑”,我们能让模型在思维的荒原中,始终有一双眼睛盯着现实世界的图像参考。


注:代码与模型已开源至 https://github.com/lrlbbzl/Qwen-AVAR

发现相似论文

试试这些示例

  • 查找最近其他探讨多模态大语言模型中视觉幻觉(Visual Hallucination)与注意力分配机制关系的论文。
  • 哪篇论文最早发现了“纯文本预训练对多模态推理能力有显著贡献”的现象,本文是如何在注意力层面解释这一点的?
  • 有哪些研究尝试将 AVAR 中的这种“视觉锚定(Visual Anchoring)”策略应用到视频推理或超长多模态文档理解任务中?
目录
[ICLR 2026] AVAR:告别推理时的“视而不见”,重塑多模态冷启动的全局视野
1. TL;DR
2. 核心速览:为什么你的模型“视而不见”?
3. 痛点深挖:沉溺于“文字游戏”的 Reasoning
4. AVAR 方法论:强制“视觉回看”的艺术
4.1. 1. 视觉锚定数据合成 (VARD)
4.2. 2. 注意力引导训练目标 (AGTO)
4.3. 3. RL 阶段的视觉奖励塑形 (VARS)
5. 实验战绩:全线飘红
6. 深度洞察:从 Narrow 到 Panoramic
7. 总结