HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

HyperEyes：拒绝无效“加班”，多模态智能体如何实现搜索效率 5 倍跃升？

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 HyperEyes，一种并行多模态搜索智能体方案，通过动态融合视觉定位与搜索为原子操作，实现了“搜索更广而非更长”的并行化交互模式。该系统在保持高精度的同时，显著降低了推理成本，在 30B 规模下达到了 SOTA 水平。

TL;DR

多模态搜索智能体（Multimodal Search Agents）正面临一个尴尬的现状：面对一张包含多个物体的图片，它们往往像个新手一样，一个个“手动”抠图、搜索、返回结果，再进行下一次搜索。这种**串行处理（Sequential Processing）**不仅浪费时间，更在冗余交互中积累了大量干扰噪声。

来自小红书和剑桥大学的研究团队提出了 HyperEyes。它的逻辑很简单：Search Wider, Not Longer（搜得更广，而非更长）。通过并行化动作设计与效率感知的强化学习，HyperEyes-30B 在准确率提升的同时，搜索轮数减少了惊人的 5.3 倍，实现了效率与性能的双重 Pareto 优化。

痛点深挖：为什么搜索智能体越来越“啰嗦”？

目前的搜索智能体（如常见的 DeepEyes、VDR 等）在处理复杂视觉查询时，往往陷入两个盲区：

交互冗余：当用户问“图中这三个人分别是谁？”时，传统模型会进行 3 轮独立调用。每轮都要重新推理、调用工具、读取长达数千 Token 的网页结果。
过度搜索（Over-searching）：现有的 RL 训练目标往往只有“结果准确率”。为了刷分，模型倾向于无限制地调用搜索工具，这导致 Token 消耗爆炸。

作者犀利地指出：准确率不低，但代价太大。 现有的评估体系只看分，不看耗，掩盖了推理成本这一“隐形成本”。

核心技术：UGS 动作空间与双粒度效率 RL

1. 统一接地搜索 (Unified Grounded Search, UGS)

为了打破“先截图再搜索”的死循环，HyperEyes 将视觉定位（Visual Grounding）和检索合二为一。模型可以在单次 tool_call 中同时提交多个 Bounding Boxes（检测框）和多个文本 Query。这种“地毯式”搜索在第一轮就拿回了所有必要信息，把交互深度转化为了搜索广度。

模型架构图 图 1：HyperEyes 训练框架概览，包含并行数据合成与双粒度强化学习

2. TRACE：会动态“进化”的奖励机制

为了限制模型的“啰嗦”，作者提出了 TRACE (Tool-use Reference-Adaptive Cost Efficiency)。

不仅仅是惩罚：单纯惩罚调用次数会损害模型处理复杂问题的能力。
动态收紧：TRACE 会在训练过程中，根据当前模型已经达到的最佳效率表现，不断收紧“满分指标”。如果你上一轮用 4 次搜索答对了，这一轮用 5 次就只能拿低分。这种机制逼迫模型向“极简主义”进化。

3. OPD：让大模型教小模型如何“快准狠”

由于搜索反馈是稀疏的（只有最后对不对），模型很难知道是哪一步搜错了。On-Policy Distillation (OPD) 将 235B 规模的强力教师模型的 Token 级信号注入到 30B 学生模型中。这种微观层面的纠偏，让学生模型学会了更精准的推理路径。

实验战绩：开源界的效率天花板

为了证明这一套方法真的实用，研究者推出了 IMEB (Image Multi-Entity Benchmark) 榜单。这是首个将“推理成本”列为一级指标的基准。

实验结果对比 表 3：在成本感知分数 (CAS) 衡量下，HyperEyes 展现出压倒性优势

全方位碾压：HyperEyes-30B 在 MMSearch、LiveVQA 等六个基准上平均表现优异。在多实体复杂任务中，搜索轮数从 VDR 的 11.6 轮骤降至 2.2 轮。
CAS 指标优势：引入考虑 Token 消耗和调用轮次的 CAS 分数后，HyperEyes 比同规模模型领先数倍。这说明它不是靠“堆算力”赢的，而是靠“高智商”赢的。

深度洞察：并行化是 Agent 的未来吗？

HyperEyes 的成功给行业留下了几个深思点：

信噪比的悖论：实验证明，搜索次数越多，准确率反而可能下降（见原文 4.2 节分析）。这是因为冗余信息带来了更多干扰项。HyperEyes 通过“一次性拿对证据”，反而提高了决策稳定性。
小模型的逆袭：通过 OPD 蒸馏，30B 级别的模型在搜索任务上能爆发出接近 235B 甚至闭源模型（如 Claude-4.6, Kimi-K2.5）的战斗力。

局限性

尽管 HyperEyes 在静态多模态搜索上表现强悍，但对于动态视频流或有时序要求的任务，并行的 UGS 机制可能需要更复杂的逻辑来处理实体间的因果关系。

总结

HyperEyes 标志着多模态智能体从“能跑通”向“能商用”迈出的一大步。它告诉我们，真正的智能不应该是在复杂的搜索工具中迷失方向，而是在一眼洞穿需求后，以最高效的动作直达终点。

致读者：如果你正在开发 RAG 或搜索类 Agent，HyperEyes 提出的“效率感知 RL”和“并行动作空间”非常值得在生产环境中借鉴。

Find Similar Papers

Try Our Examples

检索最近一年内提出针对 Transformer 架构进行并行工具调用（Parallel Tool Calling）优化的其他相关论文。
哪篇论文最早定义了 ReAct 范式在多模态搜索领域的应用，本文的 UGS 机制在动作空间定义上与其有何逻辑差异？
调研当前除了 GRPO 之外，还有哪些强化学习算法被应用于优化大规模语言模型智能体（LLM Agent）的推理效率与成本控制？

Contents

HyperEyes：拒绝无效“加班”，多模态智能体如何实现搜索效率 5 倍跃升？

1. TL;DR

2. 痛点深挖：为什么搜索智能体越来越“啰嗦”？

3. 核心技术：UGS 动作空间与双粒度效率 RL

3.1. 1. 统一接地搜索 (Unified Grounded Search, UGS)

3.2. 2. TRACE：会动态“进化”的奖励机制

3.3. 3. OPD：让大模型教小模型如何“快准狠”

4. 实验战绩：开源界的效率天花板

5. 深度洞察：并行化是 Agent 的未来吗？

5.1. 局限性

6. 总结