WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
LongSeeker:弹性上下文编排,开启长程搜索智能体的“极简模式”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 LongSeeker,这是一种专为长程搜索(Long-horizon Search)设计的智能体。其核心贡献在于引入了 Context-ReAct 范式,通过 5 种原子元操作(Skip, Compress, Rollback, Snippet, Delete)实现了对工作上下文的动态弹性编排,打破了传统 ReAct 模式下的上下文膨胀瓶颈。

TL;DR

传统的 AI 搜索智能体就像一个“囤积癖”,随着搜索步骤的增加,所有的网页内容和推理过程都会被塞进上下文窗口,最终导致模型“内存溢出”或思绪混乱。LongSeeker 改变了这一现状:它通过 Context-ReAct 范式,让智能体学会了“断舍离”。通过五种精细化的元操作,它能自主决定哪些信息该总结、哪些该删除、哪些该精准保留。实验证明,它在复杂搜索任务上的表现大幅超越了阿里和字节的同类模型,且上下文长度始终保持在极低水平。

背景:被“撑死”的 ReAct 智能体

在长程任务(Long-horizon tasks)中,智能体需要调用工具(如搜索网页)、观察结果、更新推理。目前主流的 ReAct 架构由于采用单调递增的追加模式,面临三大痛点:

  1. 噪声污染:无效的搜索结果会干扰模型的判断力。
  2. 信噪比下降:核心证据被淹没在冗长无关的信息中。
  3. 资源枯竭:即使是 128k 甚至更长的上下文窗口,在数十轮复杂的搜索面前也显得捉襟见肘。

作者给出的药方是:弹性上下文编排(Elastic Context Orchestration)

核心武器:Context-ReAct 的五大原子操作

LongSeeker 不再机械地记录历史,而是在每一步行动前,先进行一次“内观”,通过以下五种操作重塑自己的记忆:

  • Skip:若当前信息精炼,不作变动。
  • Compress:对过去的某一段轨迹进行抽象总结,保留结论。
  • Snippet:这是本文的亮点。针对数字、代码等关键信息,它不使用易产生幻觉的总结,而是通过指令式提取实现“无损保留”。
  • Delete:直接擦除被证伪或无用的冗余信息。
  • Rollback:就像玩游戏读档,当发现搜索路径错误时,它会回溯到之前的某个状态,并记录“为什么这条路没走通”,避免重蹈覆辙。

Context-ReAct 范式架构图

技术直觉:作者在文中证明了 Compress 操作在表达上是完备的(Expressively Complete),但为了效率和保真度,引入 SnippetRollback 提供了关键的感官偏置(Inductive Bias),降低了模型在长程任务中的幻觉风险。

实验与结果:小参数,大能量

LongSeeker 仅使用了 30B 参数(微调自 Qwen3),但在处理复杂搜索任务时展现出了惊人的效率。

1. 性能霸榜

在 BrowseComp(英语)和 BrowseComp-ZH(中文)基准测试中,LongSeeker 的得分分别为 61.5%62.5%,这一成绩不仅超越了同样是开源范畴的 Tongyi DeepResearch,甚至紧追 GPT-5 和 Gemini 3.0 Pro 等闭源巨头。

性能对比表

2. 上下文增长动力学

观察下图(a),可以明显看到对比。传统的 ReAct 轨迹(如 DeepSeek-V3.2 模式)Token 数呈直线爆炸增长;而 LongSeeker 即使推理到 300 步以上,上下文长度依然稳定在 15k 以内。这种“稳如老狗”的记忆控制能力,是其能持续处理高难度任务的关键。

上下文增长趋势

深度洞察:让上下文管理成为一种推理本能

LongSeeker 的成功揭示了一个深刻的道理:有效的信息检索不仅仅是“找”,更是“扔”。 以往的研究(如 AgentFold)主要是在一段对话结束后进行总结,这属于“后处理”。而 LongSeeker 将上下文操作整合进了 next-token prediction 的生成过程中。在模型的 structured output 中,推理理由、元操作指令和工具调用是同时生成的。这意味着模型在思考“下一步搜什么”时,也在同时思考“之前的记忆里哪些已经过时了”。

总结与局限

LongSeeker 证明了主动管理工作记忆可以极大地提升复杂任务的可靠性。然而,该方法目前还比较依赖高质量的合成数据(由更强大的模型如 DeepSeek-V3.2 作为老师进行标注)。

未来方向:作者提到,利用强化学习(RL)来进一步优化元操作的决策逻辑将是下一个高地。此外,这种弹性上下文范式不仅能用于搜索,未来在自动编程、长法律文档分析等领域也极具想象空间。


关键词:Long-horizon Search, Context Management, ReAct, LongSeeker, 弹性编排

Find Similar Papers

Try Our Examples

  • 查找最近其他将上下文清理(context pruning)或动态压缩机制整合进 LLM 推理循环(loop)的 SOTA 智能体研究。
  • 哪篇论文最早在 ReAct 范式中探讨了回溯(backtracking)机制?LongSeeker 的 Rollback 操作在逻辑上与之有何异同?
  • 探索将 Context-ReAct 的弹性操作集(如 Snippet 和 Rollback)应用到长代码编写或自动化软件工程任务中的最新论文。
Contents
LongSeeker:弹性上下文编排,开启长程搜索智能体的“极简模式”
1. TL;DR
2. 背景:被“撑死”的 ReAct 智能体
3. 核心武器:Context-ReAct 的五大原子操作
4. 实验与结果:小参数,大能量
4.1. 1. 性能霸榜
4.2. 2. 上下文增长动力学
5. 深度洞察:让上下文管理成为一种推理本能
6. 总结与局限