OpenSeeker 是由学术团队推出的首个全开源(模型与数据)的前沿级搜索智能体,基于 Qwen3-30B 构建。它通过仅 11.7k 条高质量合成数据的单次 SFT 训练,就在 BrowseComp (29.5%) 和 WideSearch 等多个基准测试中达到了 SOTA 水平。
TL;DR
在 AI 智能体(Agent)领域,高性能的“深度搜索”能力一直被视为大厂的特权。今天,来自上海交通大学等机构的学术团队通过 OpenSeeker 项目,正式开源了完整的高质量训练数据与模型。OpenSeeker 仅用 11.7k 条精炼数据进行单次 SFT,就在多个搜索基准测试中击败了阿里通义 DeepResearch 等经过复杂强化学习(RL)训练的潜力对手,实现了搜索智能体的“学术逆袭”。
背景定位:这是首个由纯学术团队研发,在性能上对标工业界闭源模型(如 OpenAI o3, Claude 4),且实现 100% 数据与模型权重开源的里程碑式工作。
痛点深挖:为什么搜索智能体这么难做?
目前的搜索智能体普遍面临两个挑战:
- 数据的“廉价感”:现有的开源 QA 数据集大多是简单的检索增强,智能体只需通过关键词匹配就能找到答案,无法培养出真正的 Multi-hop(多跳)推理 能力。
- 网页噪声噪音:真实的网页充满广告、侧边栏和无关信息。当智能体进行长距离搜索时,这些噪声会迅速填满 Context Window,导致推理崩溃。
工业巨头(如 Google, OpenAI)利用私有数据构建了极高的护城河(Data Moat),而学术界此前一直缺乏一份能够强制模型进行深度决策的高质量“教科书”。
核心方法论:OpenSeeker 的两把“利剑”
1. 基于事实图谱的可控 QA 合成 (Fact-grounded QA Synthesis)
为了让智能体“被迫”思考,作者不满足于让 LLM 凭空生成问题,而是采用了逆向工程网页拓扑的方法:
- 拓扑扩展:从一个网页节点出发,顺着超链接找到关联的知识集群。
- 实体模糊化 (Entity Obfuscation):这是最精妙的一步。将具体的实体(如“北京”)转化为模糊的描述(如“被称为中国首都的城市”),从而打破智能体直接通过关键词搜索“肉食”的捷径,强制其必须在网络图中进行多步跳转和逻辑验证。
图 1:QA 合成流:从网页子图到复杂逻辑谜题的转化过程
2. 去噪轨迹合成 (Denoised Trajectory Synthesis)
在生成训练轨迹时,作者设计了一个不对称训练方案:
- 教师端(去噪生成):在合成轨迹时,使用另一个 LLM 将繁杂的网页响应(Raw Response)实时摘要。这让“教师”模型能在一个干净的上下文中生成精准的动作(Action)。
- 学生端(原始上下文训练):在训练 OpenSeeker 模型时,故意喂给它带有原始噪声的网页内容,但要求它预测出“教师”生成的精简决策。这种设计迫使模型进化出强大的 内在降噪(Intrinsic Denoising) 能力,使其在真实互联网环境中也能“一眼看到重点”。
图 2:去噪轨迹合成通过“教师-学生”不对称架构提升模型鲁棒性
实验与结果:小数据博弈大数据
OpenSeeker 的表现令人震惊。在 30B 参数级别下,它几乎是统治级的存在:
- 中文搜索表现 (BrowseComp-ZH):OpenSeeker 达到 48.4 分,一举超越了拥有庞大工业资源的通义 DeepResearch(46.7)。
- 效率对比:对比需要 14.7k 甚至 15k 样本的基线系统,OpenSeeker 仅需 11.7k 样本。
图 3:各模型在不同搜索 benchmark 上的综合战绩对比
消融实验显示:OpenSeeker 的合成数据在平均工具调用次数(Tool Calls)和处理的 Token 长度上均显著高于基准数据集。这意味着 OpenSeeker 的“训练题”比考试题更难,这种 Inductive Bias 的强化让它能够从容应对复杂的长程任务。
深度洞察与展望
OpenSeeker 的核心价值在于它不仅开源了一个 SOTA 模型,更开源了生成高价值 Agent 数据的“工业秘方”。
- 局限性:由于团队算力限制,目前仅进行了单次 SFT。如果结合强化学习(RL)进行迭代(Iterative Refinement),其潜力上限难以想象。
- 行业启示:在搜索智能体赛道上,昂贵的“预训练”也许不是唯一出路。通过精巧的、基于图论的数据工程(Data Engineering),即使是相对较小参数的模型也能在特定垂直任务上“降维打击”工业级巨兽。
结论:OpenSeeker 标志着 Agent 开发从“暗盒竞争”走向了“透明协作”。它不仅是学术界的胜利,更是开源社区在通用智能 Agent 道路上的重要里程碑。
