WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
HyperEyes:拒绝无效“加班”,多模态智能体如何实现搜索效率 5 倍跃升?
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 HyperEyes,一种并行多模态搜索智能体方案,通过动态融合视觉定位与搜索为原子操作,实现了“搜索更广而非更长”的并行化交互模式。该系统在保持高精度的同时,显著降低了推理成本,在 30B 规模下达到了 SOTA 水平。

TL;DR

多模态搜索智能体(Multimodal Search Agents)正面临一个尴尬的现状:面对一张包含多个物体的图片,它们往往像个新手一样,一个个“手动”抠图、搜索、返回结果,再进行下一次搜索。这种**串行处理(Sequential Processing)**不仅浪费时间,更在冗余交互中积累了大量干扰噪声。

来自小红书和剑桥大学的研究团队提出了 HyperEyes。它的逻辑很简单:Search Wider, Not Longer(搜得更广,而非更长)。通过并行化动作设计与效率感知的强化学习,HyperEyes-30B 在准确率提升的同时,搜索轮数减少了惊人的 5.3 倍,实现了效率与性能的双重 Pareto 优化。


痛点深挖:为什么搜索智能体越来越“啰嗦”?

目前的搜索智能体(如常见的 DeepEyes、VDR 等)在处理复杂视觉查询时,往往陷入两个盲区:

  1. 交互冗余:当用户问“图中这三个人分别是谁?”时,传统模型会进行 3 轮独立调用。每轮都要重新推理、调用工具、读取长达数千 Token 的网页结果。
  2. 过度搜索(Over-searching):现有的 RL 训练目标往往只有“结果准确率”。为了刷分,模型倾向于无限制地调用搜索工具,这导致 Token 消耗爆炸。

作者犀利地指出:准确率不低,但代价太大。 现有的评估体系只看分,不看耗,掩盖了推理成本这一“隐形成本”。


核心技术:UGS 动作空间与双粒度效率 RL

1. 统一接地搜索 (Unified Grounded Search, UGS)

为了打破“先截图再搜索”的死循环,HyperEyes 将视觉定位(Visual Grounding)和检索合二为一。模型可以在单次 tool_call 中同时提交多个 Bounding Boxes(检测框)和多个文本 Query。这种“地毯式”搜索在第一轮就拿回了所有必要信息,把交互深度转化为了搜索广度。

模型架构图 图 1:HyperEyes 训练框架概览,包含并行数据合成与双粒度强化学习

2. TRACE:会动态“进化”的奖励机制

为了限制模型的“啰嗦”,作者提出了 TRACE (Tool-use Reference-Adaptive Cost Efficiency)

  • 不仅仅是惩罚:单纯惩罚调用次数会损害模型处理复杂问题的能力。
  • 动态收紧:TRACE 会在训练过程中,根据当前模型已经达到的最佳效率表现,不断收紧“满分指标”。如果你上一轮用 4 次搜索答对了,这一轮用 5 次就只能拿低分。这种机制逼迫模型向“极简主义”进化。

3. OPD:让大模型教小模型如何“快准狠”

由于搜索反馈是稀疏的(只有最后对不对),模型很难知道是哪一步搜错了。On-Policy Distillation (OPD) 将 235B 规模的强力教师模型的 Token 级信号注入到 30B 学生模型中。这种微观层面的纠偏,让学生模型学会了更精准的推理路径。


实验战绩:开源界的效率天花板

为了证明这一套方法真的实用,研究者推出了 IMEB (Image Multi-Entity Benchmark) 榜单。这是首个将“推理成本”列为一级指标的基准。

实验结果对比 表 3:在成本感知分数 (CAS) 衡量下,HyperEyes 展现出压倒性优势

  • 全方位碾压:HyperEyes-30B 在 MMSearch、LiveVQA 等六个基准上平均表现优异。在多实体复杂任务中,搜索轮数从 VDR 的 11.6 轮骤降至 2.2 轮。
  • CAS 指标优势:引入考虑 Token 消耗和调用轮次的 CAS 分数后,HyperEyes 比同规模模型领先数倍。这说明它不是靠“堆算力”赢的,而是靠“高智商”赢的。

深度洞察:并行化是 Agent 的未来吗?

HyperEyes 的成功给行业留下了几个深思点:

  • 信噪比的悖论:实验证明,搜索次数越多,准确率反而可能下降(见原文 4.2 节分析)。这是因为冗余信息带来了更多干扰项。HyperEyes 通过“一次性拿对证据”,反而提高了决策稳定性。
  • 小模型的逆袭:通过 OPD 蒸馏,30B 级别的模型在搜索任务上能爆发出接近 235B 甚至闭源模型(如 Claude-4.6, Kimi-K2.5)的战斗力。

局限性

尽管 HyperEyes 在静态多模态搜索上表现强悍,但对于动态视频流或有时序要求的任务,并行的 UGS 机制可能需要更复杂的逻辑来处理实体间的因果关系。

总结

HyperEyes 标志着多模态智能体从“能跑通”向“能商用”迈出的一大步。它告诉我们,真正的智能不应该是在复杂的搜索工具中迷失方向,而是在一眼洞穿需求后,以最高效的动作直达终点。


致读者:如果你正在开发 RAG 或搜索类 Agent,HyperEyes 提出的“效率感知 RL”和“并行动作空间”非常值得在生产环境中借鉴。

Find Similar Papers

Try Our Examples

  • 检索最近一年内提出针对 Transformer 架构进行并行工具调用(Parallel Tool Calling)优化的其他相关论文。
  • 哪篇论文最早定义了 ReAct 范式在多模态搜索领域的应用,本文的 UGS 机制在动作空间定义上与其有何逻辑差异?
  • 调研当前除了 GRPO 之外,还有哪些强化学习算法被应用于优化大规模语言模型智能体(LLM Agent)的推理效率与成本控制?
Contents
HyperEyes:拒绝无效“加班”,多模态智能体如何实现搜索效率 5 倍跃升?
1. TL;DR
2. 痛点深挖:为什么搜索智能体越来越“啰嗦”?
3. 核心技术:UGS 动作空间与双粒度效率 RL
3.1. 1. 统一接地搜索 (Unified Grounded Search, UGS)
3.2. 2. TRACE:会动态“进化”的奖励机制
3.3. 3. OPD:让大模型教小模型如何“快准狠”
4. 实验战绩:开源界的效率天花板
5. 深度洞察:并行化是 Agent 的未来吗?
5.1. 局限性
6. 总结