WisPaper
WisPaper
Search
QA
Pricing
TrueCite
DR-Venus:仅需 10K 数据,4B 小模型也能成为深度调研专家
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 DR-Venus,一个参数量仅为 4B 的前沿边缘级深度搜索助手(Deep Research Agent)。该模型完全基于 10K 条开源数据,通过改进的数据质量管理和基于信息增益(Information Gain)的强化学习,在多个深度搜索基准测试中超越了 9B 以下的所有模型,并逼近了 30B 级系统的性能。

TL;DR

在 AI Agent 领域,"Deep Research"(深度搜索/调研)一直被认为是 30B 甚至 100B 以上大模型的专利,因为这需要极强的长程规划、工具调用稳定性及信息聚合能力。蚂蚁集团 Venus 团队发布的 DR-Venus-4B 打破了这一固有印象。凭借全新的 IGPO (Information Gain-based Policy Optimization) 强化学习算法和精细的数据配方,这个 4B 小模型在多个榜单上不仅碾压了同级别的 7B/9B 模型,甚至在 Pass@16 评估下通过“思维缩放”接连挑落了 GPT-5 等顶尖闭源模型。

背景定位

DR-Venus 的出现标志着 边缘侧 Agent 进入了“深水区”。它不仅能简单回答问题,还能像人类调研员一样,在互联网上反复搜索、打开网页(Browse)、提取证据、交叉验证。该工作在学术坐标系中处于“高效数据利用”与“高密度强化学习”的交汇点。

痛点深挖:为什么小模型做不了长调研?

传统的 Agent 训练面临两个核心局限:

  1. 数据质量的“放大效应”:小模型不像 70B 模型那样具备强大的容错性。如果 SFT 轨迹中存在格式混乱或无效的搜索步骤,小模型会迅速学坏,导致推理崩溃。
  2. 强化学习的“稀疏奖励陷阱”:在长达 200 个 Turn 的调研任务中,只有最后给出的答案对错才是唯一反馈(Outcome Reward)。对于 4B 模型,随机采样到正确答案的概率极低,导致训练早期拿不到正向信号,陷入“优势塌陷”。

核心机制:SFT 重采样 + IGPO 奖励设计

1. Agentic SFT:不只是量大,更要“够长”

作者对 10K 条 REDSearcher 开源轨迹进行了魔改。核心操作是 Turn-aware Resampling:人为提升长轨迹的采样权重。

  • 50 步以下的轨迹权重为 1x。
  • 100 步以上的轨迹权重直接拉到 5x。 这强行训练了小模型在极长上下文下的耐力。

2. Agentic RL:用“信息增益”喂饱模型

模型不再只是“赌”最后的答案对不对,而是评估每一步操作带来了多少 信息增益 (Information Gain, IG)

模型训练框架及结果

  • Turn-level Rewards:模型每一步操作后,计算其使预测正确答案概率提升的程度。
  • 格式正则化 (Format Penalty):如果模型在调用工具时写错了 XML 格式,立刻给予惩罚,这比轨迹结束再惩罚要精准得多。

实验与结果分析

在 BrowseComp 等深度搜索基准上,DR-Venus 的表现令人惊艳:

| 模型规格 | Model | BrowseComp (EN) | BrowseComp-ZH | | :--- | :--- | :---: | :---: | | 4B (Ours) | DR-Venus-4B-RL | 29.1 | 37.7 | | 4B | AgentCPM-4B | 24.1 | 29.1 | | 32B | DeepMiner-32B | 33.5 | 40.1 | | 闭源 | GPT-5 High | 54.9 | 65.0 |

Pass@K 性能曲线 如上图所示,当增加采样次数(Pass@16)时,DR-Venus-4B 的潜力可以被挖掘到 78.5% 以上,这意味着小模型本身已经具备了解决复杂任务的“上限”,缺的是输出的稳定性。

行为洞察:RL 教会了模型“深读”

通过对工具调用的分析,作者发现经过 RL 训练后,模型更倾向于使用 browse(阅读网页详情)而非仅仅停留在 search(查看搜索摘要)。在成功 trajectory 中,浏览占比显著更高。RL 成功纠正了小模型“只搜不看”的浮躁行为。

深度洞察与总结

  1. 数据的效率远胜规模:仅依靠 10K 左右的高质量开源数据,通过精巧的 RL 方法(IGPO),4B 模型就能在特定领域(Deep Research)与 30B 模型掰手腕。
  2. 测试时缩放(Test-time Scaling)的奇迹:DR-Venus 在 Pass@16 下的惊人表现预示着,未来边缘侧 Agent 的核心竞争力可能不在于模型参数量,而在于如何通过搜索和思维验证来换取性能。
  3. 局限性:目前的训练仍高度依赖于已知答案的 Query 对(QA Pairs),如何实现在完全无监督或在线环境下的自主进化,仍是下一步的挑战。

总结:DR-Venus 证明了“边缘调研专家”是完全可行的。它不仅降低了深度调研的门槛,更为隐私敏感、低功耗的 Agent 部署指明了方向。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图通过数据过滤或重采样技术提升小参数语言模型(Small Language Models)Agent 能力的论文。
  • 哪篇论文最早提出了状态空间模型或 GRPO 算法,本文所使用的 IGPO 方法是如何在其基础上改进奖励密度的?
  • 有哪些研究探讨了将 DR-Venus 这种深度搜索能力应用到多模态边缘设备(如智能眼镜或机器人)的实时交互任务中?
Contents
DR-Venus:仅需 10K 数据,4B 小模型也能成为深度调研专家
1. TL;DR
2. 背景定位
3. 痛点深挖:为什么小模型做不了长调研?
4. 核心机制:SFT 重采样 + IGPO 奖励设计
4.1. 1. Agentic SFT:不只是量大,更要“够长”
4.2. 2. Agentic RL:用“信息增益”喂饱模型
5. 实验与结果分析
5.1. 行为洞察:RL 教会了模型“深读”
6. 深度洞察与总结