OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

[arXiv 2026] OpenSeeker：打破巨头垄断，全开源数据助推搜索智能体登顶 SOTA

总结

问题

方法

结果

要点

摘要

OpenSeeker 是由学术团队推出的首个全开源（模型与数据）的前沿级搜索智能体，基于 Qwen3-30B 构建。它通过仅 11.7k 条高质量合成数据的单次 SFT 训练，就在 BrowseComp (29.5%) 和 WideSearch 等多个基准测试中达到了 SOTA 水平。

TL;DR

在 AI 智能体（Agent）领域，高性能的“深度搜索”能力一直被视为大厂的特权。今天，来自上海交通大学等机构的学术团队通过 OpenSeeker 项目，正式开源了完整的高质量训练数据与模型。OpenSeeker 仅用 11.7k 条精炼数据进行单次 SFT，就在多个搜索基准测试中击败了阿里通义 DeepResearch 等经过复杂强化学习（RL）训练的潜力对手，实现了搜索智能体的“学术逆袭”。

背景定位：这是首个由纯学术团队研发，在性能上对标工业界闭源模型（如 OpenAI o3, Claude 4），且实现 100% 数据与模型权重开源的里程碑式工作。

痛点深挖：为什么搜索智能体这么难做？

目前的搜索智能体普遍面临两个挑战：

数据的“廉价感”：现有的开源 QA 数据集大多是简单的检索增强，智能体只需通过关键词匹配就能找到答案，无法培养出真正的 Multi-hop（多跳）推理 能力。
网页噪声噪音：真实的网页充满广告、侧边栏和无关信息。当智能体进行长距离搜索时，这些噪声会迅速填满 Context Window，导致推理崩溃。

工业巨头（如 Google, OpenAI）利用私有数据构建了极高的护城河（Data Moat），而学术界此前一直缺乏一份能够强制模型进行深度决策的高质量“教科书”。

核心方法论：OpenSeeker 的两把“利剑”

1. 基于事实图谱的可控 QA 合成 (Fact-grounded QA Synthesis)

为了让智能体“被迫”思考，作者不满足于让 LLM 凭空生成问题，而是采用了逆向工程网页拓扑的方法：

拓扑扩展：从一个网页节点出发，顺着超链接找到关联的知识集群。
实体模糊化 (Entity Obfuscation)：这是最精妙的一步。将具体的实体（如“北京”）转化为模糊的描述（如“被称为中国首都的城市”），从而打破智能体直接通过关键词搜索“肉食”的捷径，强制其必须在网络图中进行多步跳转和逻辑验证。

模型架构与合成算法 图 1：QA 合成流：从网页子图到复杂逻辑谜题的转化过程

2. 去噪轨迹合成 (Denoised Trajectory Synthesis)

在生成训练轨迹时，作者设计了一个不对称训练方案：

教师端（去噪生成）：在合成轨迹时，使用另一个 LLM 将繁杂的网页响应（Raw Response）实时摘要。这让“教师”模型能在一个干净的上下文中生成精准的动作（Action）。
学生端（原始上下文训练）：在训练 OpenSeeker 模型时，故意喂给它带有原始噪声的网页内容，但要求它预测出“教师”生成的精简决策。这种设计迫使模型进化出强大的 内在降噪（Intrinsic Denoising） 能力，使其在真实互联网环境中也能“一眼看到重点”。

摘要轨迹合成示意图 图 2：去噪轨迹合成通过“教师-学生”不对称架构提升模型鲁棒性

实验与结果：小数据博弈大数据

OpenSeeker 的表现令人震惊。在 30B 参数级别下，它几乎是统治级的存在：

中文搜索表现 (BrowseComp-ZH)：OpenSeeker 达到 48.4 分，一举超越了拥有庞大工业资源的通义 DeepResearch（46.7）。
效率对比：对比需要 14.7k 甚至 15k 样本的基线系统，OpenSeeker 仅需 11.7k 样本。

性能对比表 图 3：各模型在不同搜索 benchmark 上的综合战绩对比

消融实验显示：OpenSeeker 的合成数据在平均工具调用次数（Tool Calls）和处理的 Token 长度上均显著高于基准数据集。这意味着 OpenSeeker 的“训练题”比考试题更难，这种 Inductive Bias 的强化让它能够从容应对复杂的长程任务。

深度洞察与展望

OpenSeeker 的核心价值在于它不仅开源了一个 SOTA 模型，更开源了生成高价值 Agent 数据的“工业秘方”。

局限性：由于团队算力限制，目前仅进行了单次 SFT。如果结合强化学习（RL）进行迭代（Iterative Refinement），其潜力上限难以想象。
行业启示：在搜索智能体赛道上，昂贵的“预训练”也许不是唯一出路。通过精巧的、基于图论的数据工程（Data Engineering），即使是相对较小参数的模型也能在特定垂直任务上“降维打击”工业级巨兽。

结论：OpenSeeker 标志着 Agent 开发从“暗盒竞争”走向了“透明协作”。它不仅是学术界的胜利，更是开源社区在通用智能 Agent 道路上的重要里程碑。

发现相似论文

试试这些示例

查找最近一年内利用合成轨迹（Synthetic Trajectory）提升 Large Language Model 智能体长程推理能力的论文。
哪篇论文最早在 Web Agent 领域提出了 ReAct 范式，OpenSeeker 是如何通过上下文去噪改进这一范式的？
有哪些研究将类似“网页拓扑扩展”的图增强技术应用于多模态搜索智能体或跨语言信息检索任务？

[arXiv 2026] OpenSeeker：打破巨头垄断，全开源数据助推搜索智能体登顶 SOTA

1. TL;DR

2. 痛点深挖：为什么搜索智能体这么难做？

3. 核心方法论：OpenSeeker 的两把“利剑”

3.1. 1. 基于事实图谱的可控 QA 合成 (Fact-grounded QA Synthesis)

3.2. 2. 去噪轨迹合成 (Denoised Trajectory Synthesis)

4. 实验与结果：小数据博弈大数据

5. 深度洞察与展望