本文提出了 HART(High-resolution Annotation-free Reasoning Technique),一种无需额外视觉标注的高分辨率多模态模型推理框架。其核心是通过闭环自验证机制和改进的强化学习算法 AP-GRPO,使 7B 规模的模型在多个高分辨率基准测试中超越了 72B 规模的 SOTA 模型。
TL;DR
在高分辨率视觉理解任务中,LMM 常因像素丢失或计算量爆炸而“近视”。本文提出的 HART 框架,通过让模型在“只看局部”的情况下自验证定位准确性,配合创新的 AP-GRPO 强化学习算法,成功在不需要一张人工坐标标注的前提下,让 7B 模型在性能上全面压制了 72B 的大模型。
背景定位:高分辨率推理的“视力障碍”
当前多模态模型(LMM)普遍面临一个尴尬:为了节省计算资源,输入图像往往被压缩到固定分辨率(如 1024px)。对于包含微小文字或遥感细节的任务,这种压缩是致命的。
前人的解决策略通常是:寻找关键区域(ROI) -> 放大 -> 推理。 然而,这引入了两个核心战术难题:
- 标注代价高:训练精准的 ROI 预测器需要大量 Bounding Box 标注。
- 奖励误导(Reward Misspecification):如果用强化学习优化,模型经常通过“蒙对答案”来获得奖励,即便它定位的区域根本不对。作者实验发现,这种“靠运气拿奖励”的情况在 Qwen 和 InternVL 中占比竟然超过 50% 甚至 90%。
核心动机:如何实现“真”定位?
作者的直觉非常精妙:如果模型在看不到完整原图、只看它自己选出的局部区域时,还能准确回答问题,那么它的定位就一定是准确且忠实的。
这就是 HART 的闭环反馈逻辑:模型必须证明选出的那块“拼图”足以支撑最终逻辑。
架构解析:HART 与 AP-GRPO
HART 采用了一个两阶段的流程:
- 闭环自验证:
- 第一步:基于下采样全图预测 ROI。
- 第二步:根据 ROI 坐标裁剪高分辨率子图。
- 第三步:故意屏蔽全图,只给模型看子图,要求其回答。

- AP-GRPO 强化学习: 为了解决传统 GRPO 在定位任务中的不稳定性,作者提出了 Advantage Preference (AP) 机制。其公式背后的逻辑是:
- µ1 (权重放大):对于那些不仅定位对(隐含在答案正确中)且具有正向优势的响应,给予更高的权重。
- µ2 (松绑限制):当定位表现优秀时,减弱对参考模型的 KL 惩罚,允许模型更大胆地偏向这种成功的感知模式。
实验战绩:7B 战胜 72B
HART 的实验结果极具震撼力。在 MME-RealWorld-Lite 榜单上,HART-7B 展现出了极为恐怖的跨级统治力:

- 性能碾压:62.4% 的总分,将 72B 的 Qwen2.5-VL(43.7%)拉开了近 20 个百分点的差距。
- 感知力飞跃:在遥感(RS)和自动驾驶(AD)这种极度依赖细粒度特征的场景,HART 相比基础模型提升了超过 25%。
- Grounding 精度:即使没有坐标标注,HART 的定位准确率依然显著优于使用了额外监督的其他方法。
深度洞察:为什么有效?
HART 的成功在于它建立了一种强烈的因果关系。传统的 Reinforcement Learning 虽然在追求结果(Answer Correctness),但往往忽略了过程(Grounding Logic)。通过将“过程”(选取的图像块)作为“结果”产生的唯一前提,HART 强制模型在潜在表示空间内将视觉对齐做得更扎实。
从可视化结果可以看到(Figure 4),传统模型在识别远处路人时往往定位跑偏,而 HART 能够精准锁定右侧边缘的关键人物:

总结与局限
HART 为高分辨率多模态推理提供了一种极其“低碳”且高效的方案:摒弃暴力计算,追求精准定位。
局限性:目前的推理过程采用了多轮交互(多次 Crop 和推理),这在一定程度上增加了推理延迟。未来的研究方向在于如何将这种多轮的视觉反馈压缩到单次前向传播中,同时保持其强大的感知优势。
结论:HART 的出现表明,在大模型时代,精巧的算法设计(尤其是强化学习的奖励结构设计)依然能够突破参数规模的红利陷阱。
