From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

[ICLR 2026] AVAR：告别推理时的“视而不见”，重塑多模态冷启动的全局视野

总结

问题

方法

结果

要点

摘要

本文提出了 AVAR（Attention-Guided Visual Anchoring and Reflection）框架，旨在优化多模态大语言模型（MLRMs）的冷启动阶段。通过引入视觉注意力评分（VAS），作者发现推理能力与视觉注意力呈极强正相关（r=0.9616），并基于此开发了包含数据合成、注意力引导训练和奖励建模的全栈方案，在 Qwen2.5-VL-7B 上实现了 7.0% 的平均性能提升。

TL;DR

在多模态推理模型（MLRMs）的训练中，开发者常发现一个尴尬的现象：哪怕喂了再多带图的推理数据，模型推理时还是容易“跑偏”。本文揭示了罪魁祸首——懒惰注意力局部化 (Lazy Attention Localization)。作者提出的 AVAR 框架，通过在冷启动阶段强制模型进行“视觉回看”和注意力正向引导，将 Qwen2.5-VL 的推理能力提升了 7%，尤其在几何数学推理（MathVision）上狂飙 12.2%。

核心速览：为什么你的模型“视而不见”？

目前的 MLRM 研究（如 DeepSeek-R1 系列的视觉版）大多聚焦于强化学习（RL），但却忽略了 RL 前的冷启动（Cold-start）。

作者定义了一个量化指标 VAS (Visual Attention Score)，用于衡量推理过程中模型对“图像 Token”相对于“系统 Token”的关注度。

惊人发现 1：推理性能与 VAS 的相关性高达 0.9616。
惊人发现 2：传统多模态冷启动居然无法提升 VAS，模型依然死盯着系统提示词（Lazy Attention）。反倒是纯文本冷启动能稍微好点。

视觉注意力与性能相关性及分布

痛点深挖：沉溺于“文字游戏”的 Reasoning

现有模型在进行 Chain-of-Thought (CoT) 时，往往在第一步看了图，后面几十步都在针对文本进行逻辑推演。随着推理链变长，模型逐渐忘记了图像的存在，产生严重的“视觉幻觉”。这本质上是因为模型发现关注系统 Token 的 Loss 下降最快，产生了诱导性的 Inductive Bias。

AVAR 方法论：强制“视觉回看”的艺术

作者提出的 AVAR (Attention-Guided Visual Anchoring and Reflection) 由三个硬核模块组成：

1. 视觉锚定数据合成 (VARD)

不再只是“描述+推理”，而是在推理链中植入视觉锚点。

Step 1: Gemini 2.5-Pro 生成高保真描述。
Step 2: Qwen3-235B 生成带反思的推理链。
Step 3: 强制插入诸如“回到图像中看那个三角形”或“再次检查坐标轴”的语句。这就像给模型做“视力纠正操”。

AVAR 数据合成流程图

2. 注意力引导训练目标 (AGTO)

在 Loss 函数中直接动刀：

增强项 ( $L_{e nhan ce - im g}$ )：强制模型提高对图像 Token 的注意力概率分布。
抑制项 ( $L_{s u pp r ess - sy s}$ )：惩罚模型过度关注无意义的系统 Token。

3. RL 阶段的视觉奖励塑形 (VARS)

在强化学习（GRPO 算法）中，除了看答案对不对，还要看模型在推理过程中是否保持了足量的视觉注意力。如果模型只靠语言先验蒙对答案，奖励会打折扣。

实验战绩：全线飘红

在 Qwen2.5-VL-7B 基座上，AVAR-Thinker 展现了霸榜实力：

几何推理（MathVision）：25.2 $o$ 37.4 (+12.2%)。
抗幻觉（HallusionBench）：50.7 $o$ 59.5 (+8.8%)。
平均性能：实现了 7.0% 的净增，超过了专门针对数学优化的 Vision-R1 和 ThinkLite-VL。

实验结果对比表

深度洞察：从 Narrow 到 Panoramic

通过 VAS 指标的演化（Table 4），我们可以看到 VAS 从 7.5（Narrow-View）一路上升到 18.9（Panoramic-View）。这证明了 AVAR 确实让模型从“管中窥豹”变成了“全景洞察”。

局限性分析：虽然 AVAR 极大提升了推理质量，但强制插入视觉锚点可能会略微增加推理生成长度。此外，目前对系统 Token 的抑制程度（ $α, β$ 参数）仍需由人工经验根据具体基座模型细调。

总结

AVAR 的成功告诉我们，多模态推理的瓶颈可能不在于视觉编码器（Vision Encoder）不够强，而在于 Reasoning 引擎学会了逃避视觉输入。通过“注意力重塑”，我们能让模型在思维的荒原中，始终有一双眼睛盯着现实世界的图像参考。

注：代码与模型已开源至 https://github.com/lrlbbzl/Qwen-AVAR

发现相似论文

试试这些示例

查找最近其他探讨多模态大语言模型中视觉幻觉（Visual Hallucination）与注意力分配机制关系的论文。
哪篇论文最早发现了“纯文本预训练对多模态推理能力有显著贡献”的现象，本文是如何在注意力层面解释这一点的？
有哪些研究尝试将 AVAR 中的这种“视觉锚定（Visual Anchoring）”策略应用到视频推理或超长多模态文档理解任务中？

[ICLR 2026] AVAR：告别推理时的“视而不见”，重塑多模态冷启动的全局视野

1. TL;DR

2. 核心速览：为什么你的模型“视而不见”？

3. 痛点深挖：沉溺于“文字游戏”的 Reasoning

4. AVAR 方法论：强制“视觉回看”的艺术

4.1. 1. 视觉锚定数据合成 (VARD)

4.2. 2. 注意力引导训练目标 (AGTO)

4.3. 3. RL 阶段的视觉奖励塑形 (VARS)

5. 实验战绩：全线飘红

6. 深度洞察：从 Narrow 到 Panoramic

7. 总结