本文提出了 AVAR(Attention-Guided Visual Anchoring and Reflection)框架,旨在优化多模态大语言模型(MLRMs)的冷启动阶段。通过引入视觉注意力评分(VAS),作者发现推理能力与视觉注意力呈极强正相关(r=0.9616),并基于此开发了包含数据合成、注意力引导训练和奖励建模的全栈方案,在 Qwen2.5-VL-7B 上实现了 7.0% 的平均性能提升。
TL;DR
在多模态推理模型(MLRMs)的训练中,开发者常发现一个尴尬的现象:哪怕喂了再多带图的推理数据,模型推理时还是容易“跑偏”。本文揭示了罪魁祸首——懒惰注意力局部化 (Lazy Attention Localization)。作者提出的 AVAR 框架,通过在冷启动阶段强制模型进行“视觉回看”和注意力正向引导,将 Qwen2.5-VL 的推理能力提升了 7%,尤其在几何数学推理(MathVision)上狂飙 12.2%。
核心速览:为什么你的模型“视而不见”?
目前的 MLRM 研究(如 DeepSeek-R1 系列的视觉版)大多聚焦于强化学习(RL),但却忽略了 RL 前的冷启动(Cold-start)。
作者定义了一个量化指标 VAS (Visual Attention Score),用于衡量推理过程中模型对“图像 Token”相对于“系统 Token”的关注度。
- 惊人发现 1:推理性能与 VAS 的相关性高达 0.9616。
- 惊人发现 2:传统多模态冷启动居然无法提升 VAS,模型依然死盯着系统提示词(Lazy Attention)。反倒是纯文本冷启动能稍微好点。

痛点深挖:沉溺于“文字游戏”的 Reasoning
现有模型在进行 Chain-of-Thought (CoT) 时,往往在第一步看了图,后面几十步都在针对文本进行逻辑推演。随着推理链变长,模型逐渐忘记了图像的存在,产生严重的“视觉幻觉”。这本质上是因为模型发现关注系统 Token 的 Loss 下降最快,产生了诱导性的 Inductive Bias。
AVAR 方法论:强制“视觉回看”的艺术
作者提出的 AVAR (Attention-Guided Visual Anchoring and Reflection) 由三个硬核模块组成:
1. 视觉锚定数据合成 (VARD)
不再只是“描述+推理”,而是在推理链中植入视觉锚点。
- Step 1: Gemini 2.5-Pro 生成高保真描述。
- Step 2: Qwen3-235B 生成带反思的推理链。
- Step 3: 强制插入诸如“回到图像中看那个三角形”或“再次检查坐标轴”的语句。这就像给模型做“视力纠正操”。

2. 注意力引导训练目标 (AGTO)
在 Loss 函数中直接动刀:
- 增强项 ():强制模型提高对图像 Token 的注意力概率分布。
- 抑制项 ():惩罚模型过度关注无意义的系统 Token。
3. RL 阶段的视觉奖励塑形 (VARS)
在强化学习(GRPO 算法)中,除了看答案对不对,还要看模型在推理过程中是否保持了足量的视觉注意力。如果模型只靠语言先验蒙对答案,奖励会打折扣。
实验战绩:全线飘红
在 Qwen2.5-VL-7B 基座上,AVAR-Thinker 展现了霸榜实力:
- 几何推理(MathVision):25.2 37.4 (+12.2%)。
- 抗幻觉(HallusionBench):50.7 59.5 (+8.8%)。
- 平均性能:实现了 7.0% 的净增,超过了专门针对数学优化的 Vision-R1 和 ThinkLite-VL。

深度洞察:从 Narrow 到 Panoramic
通过 VAS 指标的演化(Table 4),我们可以看到 VAS 从 7.5(Narrow-View)一路上升到 18.9(Panoramic-View)。这证明了 AVAR 确实让模型从“管中窥豹”变成了“全景洞察”。
局限性分析:虽然 AVAR 极大提升了推理质量,但强制插入视觉锚点可能会略微增加推理生成长度。此外,目前对系统 Token 的抑制程度( 参数)仍需由人工经验根据具体基座模型细调。
总结
AVAR 的成功告诉我们,多模态推理的瓶颈可能不在于视觉编码器(Vision Encoder)不够强,而在于 Reasoning 引擎学会了逃避视觉输入。通过“注意力重塑”,我们能让模型在思维的荒原中,始终有一双眼睛盯着现实世界的图像参考。
注:代码与模型已开源至 https://github.com/lrlbbzl/Qwen-AVAR
