DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus：仅需 10K 数据，4B 小模型也能成为深度调研专家

总结

问题

方法

结果

要点

摘要

本文推出了 DR-Venus，一个参数量仅为 4B 的前沿边缘级深度搜索助手（Deep Research Agent）。该模型完全基于 10K 条开源数据，通过改进的数据质量管理和基于信息增益（Information Gain）的强化学习，在多个深度搜索基准测试中超越了 9B 以下的所有模型，并逼近了 30B 级系统的性能。

TL;DR

在 AI Agent 领域，"Deep Research"（深度搜索/调研）一直被认为是 30B 甚至 100B 以上大模型的专利，因为这需要极强的长程规划、工具调用稳定性及信息聚合能力。蚂蚁集团 Venus 团队发布的 DR-Venus-4B 打破了这一固有印象。凭借全新的 IGPO (Information Gain-based Policy Optimization) 强化学习算法和精细的数据配方，这个 4B 小模型在多个榜单上不仅碾压了同级别的 7B/9B 模型，甚至在 Pass@16 评估下通过“思维缩放”接连挑落了 GPT-5 等顶尖闭源模型。

背景定位

DR-Venus 的出现标志着 边缘侧 Agent 进入了“深水区”。它不仅能简单回答问题，还能像人类调研员一样，在互联网上反复搜索、打开网页（Browse）、提取证据、交叉验证。该工作在学术坐标系中处于“高效数据利用”与“高密度强化学习”的交汇点。

痛点深挖：为什么小模型做不了长调研？

传统的 Agent 训练面临两个核心局限：

数据质量的“放大效应”：小模型不像 70B 模型那样具备强大的容错性。如果 SFT 轨迹中存在格式混乱或无效的搜索步骤，小模型会迅速学坏，导致推理崩溃。
强化学习的“稀疏奖励陷阱”：在长达 200 个 Turn 的调研任务中，只有最后给出的答案对错才是唯一反馈（Outcome Reward）。对于 4B 模型，随机采样到正确答案的概率极低，导致训练早期拿不到正向信号，陷入“优势塌陷”。

核心机制：SFT 重采样 + IGPO 奖励设计

1. Agentic SFT：不只是量大，更要“够长”

作者对 10K 条 REDSearcher 开源轨迹进行了魔改。核心操作是 Turn-aware Resampling：人为提升长轨迹的采样权重。

50 步以下的轨迹权重为 1x。
100 步以上的轨迹权重直接拉到 5x。这强行训练了小模型在极长上下文下的耐力。

2. Agentic RL：用“信息增益”喂饱模型

模型不再只是“赌”最后的答案对不对，而是评估每一步操作带来了多少 信息增益 (Information Gain, IG)。

模型训练框架及结果

Turn-level Rewards：模型每一步操作后，计算其使预测正确答案概率提升的程度。
格式正则化 (Format Penalty)：如果模型在调用工具时写错了 XML 格式，立刻给予惩罚，这比轨迹结束再惩罚要精准得多。

实验与结果分析

在 BrowseComp 等深度搜索基准上，DR-Venus 的表现令人惊艳：

| 模型规格 | Model | BrowseComp (EN) | BrowseComp-ZH | | :--- | :--- | :---: | :---: | | 4B (Ours) | DR-Venus-4B-RL | 29.1 | 37.7 | | 4B | AgentCPM-4B | 24.1 | 29.1 | | 32B | DeepMiner-32B | 33.5 | 40.1 | | 闭源 | GPT-5 High | 54.9 | 65.0 |

Pass@K 性能曲线如上图所示，当增加采样次数（Pass@16）时，DR-Venus-4B 的潜力可以被挖掘到 78.5% 以上，这意味着小模型本身已经具备了解决复杂任务的“上限”，缺的是输出的稳定性。

行为洞察：RL 教会了模型“深读”

通过对工具调用的分析，作者发现经过 RL 训练后，模型更倾向于使用 browse（阅读网页详情）而非仅仅停留在 search（查看搜索摘要）。在成功 trajectory 中，浏览占比显著更高。RL 成功纠正了小模型“只搜不看”的浮躁行为。

深度洞察与总结

数据的效率远胜规模：仅依靠 10K 左右的高质量开源数据，通过精巧的 RL 方法（IGPO），4B 模型就能在特定领域（Deep Research）与 30B 模型掰手腕。
测试时缩放（Test-time Scaling）的奇迹：DR-Venus 在 Pass@16 下的惊人表现预示着，未来边缘侧 Agent 的核心竞争力可能不在于模型参数量，而在于如何通过搜索和思维验证来换取性能。
局限性：目前的训练仍高度依赖于已知答案的 Query 对（QA Pairs），如何实现在完全无监督或在线环境下的自主进化，仍是下一步的挑战。

总结：DR-Venus 证明了“边缘调研专家”是完全可行的。它不仅降低了深度调研的门槛，更为隐私敏感、低功耗的 Agent 部署指明了方向。

发现相似论文

试试这些示例

查找最近其他试图通过数据过滤或重采样技术提升小参数语言模型（Small Language Models）Agent 能力的论文。
哪篇论文最早提出了状态空间模型或 GRPO 算法，本文所使用的 IGPO 方法是如何在其基础上改进奖励密度的？
有哪些研究探讨了将 DR-Venus 这种深度搜索能力应用到多模态边缘设备（如智能眼镜或机器人）的实时交互任务中？

DR-Venus：仅需 10K 数据，4B 小模型也能成为深度调研专家

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么小模型做不了长调研？

4. 核心机制：SFT 重采样 + IGPO 奖励设计

4.1. 1. Agentic SFT：不只是量大，更要“够长”

4.2. 2. Agentic RL：用“信息增益”喂饱模型

5. 实验与结果分析

5.1. 行为洞察：RL 教会了模型“深读”

6. 深度洞察与总结