DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent

[arXiv 2025] DeepResearch-9K：打造开源“深度搜索”Agent 的黄金准则

总结

问题

方法

结果

要点

摘要

本文推出了 DeepResearch-9K，一个包含 9,000 个样本的大规模深度调研助手（Deep-Research Agent）基准数据集，涵盖从 L1 到 L3 三个难度等级。同时，作者发布了开源训练框架 DeepResearch-R1，通过强化学习（RL）显著提升了轻量级模型在复杂调研任务中的表现。

TL;DR

随着 OpenAI Operator 和 DeepSeek-R1 的爆火，Agent 的“深度调研”能力成为顶级 AI 的分水岭。然而，如何训练并评测一个能够像人类专家一样进行复杂多步搜索的 Agent？本文提出了 DeepResearch-9K 数据集和 DeepResearch-R1 训练框架，通过高难度的长链推理任务（L3 级别需 20+ 次搜索），将 3B 规模的小模型训练出了超越 DeepSeek-V3 的调研水平。

背景定位：这是首个系统性针对“深度调研”场景，融合了自动数据合成、分层难度对齐以及 RL 闭环训练的开源工作。

1. 痛点：为什么现在的 Agent 还不算“资深研究员”？

目前的 Agent 基准测试（如 HotpotQA, Search-R1）存在三个致命伤：

推理链太短：大多数问题搜索 2-3 次就能解决，无法模拟真实调研中那种“抽丝剥茧”的过程。
缺乏检索压力：现有的 Multi-hop 任务往往在同一个 Wikipedia 页面就能找到多个线索，模型容易通过“走捷径”过关。
环境过于静态：模型习惯于处理清晰的指令，而面对具有**实体歧义（Entity Obfuscation）**和长距离逻辑关联的任务时，往往会陷入循环搜索或过早放弃。

2. 核心机制：三级跳跃的难度设计 (L1 - L3)

作者通过一个低成本自动化流水线（仅花费 200 美元 API 费用），构建了 9,000 个任务。其核心逻辑在于**“Relay Race”（接力赛）**式的关系链构建：

L1 (直接映射)：简单的属性替换，如将“北京”描述为“中国首都”。
L2 (多跳关联)：构建 $A o B o C$ 的链条，且故意隐去中间节点的确切名称。
L3 (深度调研)：强制执行“独立搜索约束”。作者确保任何一个网页（如维基百科条目）不能同时包含链条中连续的两个节点，迫使 Agent 必须发起至少 15-20 次独立搜索。

模型架构图 图注：一个 L3 级别的复杂样例。问题描述了从出埃及记的立法者到 19 世纪欧洲学者，再到冷战分裂城市的图书馆，推理路径极长。

3. 训练范式：强化学习如何开启 Agent 智慧？

在 DeepResearch-R1 框架中，作者对比了两种关键路径：

Zero-RL (冷启动)：直接对基座模型进行 RL。实验证明 Llama-3.2 系列在这种模式下能激发出惊人的长链思考能力。
SFT + RL (热启动)：先用 Tongyi-DeepResearch-30B 生成的高质量轨迹进行监督微调，再进行 PPO/GRPO 训练。对于 Qwen 系列模型，这种方式是防止模型“复读”或报错的关键。

性能飞跃：统计数据显示，L3 任务所需的搜索调用频率均值高达 20.23 次，远高于 L1 的 4.3 次。

搜索工具调用统计 图注：不同难度等级下，Agent 自主调用搜索工具的频次分布。

4. 实验结果：小模型能赢大模型吗？

令人惊讶的结果出现在图 4 中：

经过 PPO 强化学习训练的 Llama-3.2-3B 模型，在 DeepResearch-9K 测试集上的准确率（22.50%）竟然超过了 DeepSeek-V3（20.18%）。
模型天花板：即使是目前最强的商用调研 Agent，在 L3 级别的准确率也骤降至 23.73% 左右，这说明 DeepResearch-9K 成功触及了当前 AI 的能力边界。

训练表现对比 图注：各模型在不同训练范式下的准确率对比。

5. 深度洞察与总结

核心贡献 (Takeaways)

定义的系统化：首次将调研难度通过“搜索频次”与“实体混淆度”进行了量化对齐。
低成本路径：利用强力 Teacher 模型结合 Relational Graph，开源界可以持续生成无限量的高质量 Agent 训练数据。

局限性与展望

虽然小型模型在特定任务上通过 RL 刷出了高分，但其泛化稳定性仍需警惕。L3 级别极低的准确率预示着：Agent 仅靠补全搜索工具是不够的，未来的突破可能在于如何让模型在推理过程中实时进行 “自我反思 (Self-Reflection)” 和 “长短期记忆管理”。

这篇论文开源的不仅是数据，更是为所有开发者提供了一张通往专业级 Deep-Research Agent 的工程地图。

发现相似论文

试试这些示例

查找最近其他专注于解决大模型 Agent 长链推理（Long-chain Reasoning）及多步搜索（Multi-step Search）能力的基准测试数据集。
深度研究 Agent 中的实体混淆（Entity Obfuscation）技术最早由哪篇论文提出，其对模型推理难度的提升有何量化指标？
有哪些研究探讨了将 GRPO 或 PPO 强化学习算法应用于提升 LLM 在 Web 导航与实时资料检索任务中的策略一致性？

[arXiv 2025] DeepResearch-9K：打造开源“深度搜索”Agent 的黄金准则

1. TL;DR

2. 1. 痛点：为什么现在的 Agent 还不算“资深研究员”？

3. 2. 核心机制：三级跳跃的难度设计 (L1 - L3)

4. 3. 训练范式：强化学习如何开启 Agent 智慧？

5. 4. 实验结果：小模型能赢大模型吗？

6. 5. 深度洞察与总结

6.1. 核心贡献 (Takeaways)

6.2. 局限性与展望