本文由 Databricks 团队提出 KARL,一个通过强化学习 (RL) 训练的企业级搜索智能体。该系统在复杂的 KARLBench 基准测试中达到了 SOTA 性能,核心是通过多任务离线 RL 和代理合成数据,显著提升了长程推理和工具使用(Vector Search)的效率。
TL;DR
Databricks AI Research 推出了 KARL (Knowledge Agent via RL),这是一个专为企业级“落地推理”设计的搜索智能体。它不仅在搜索精度上硬刚 Claude 4.6 和 GPT 5.2,更在成本和延迟上跑赢了所有基线模型。其核心突破在于:利用离线强化学习(OAPL)优化了智能体的搜索策略,使其学会了何时该深度挖掘,何时该果断结案。
1. 痛点:为什么当前的智能体在企业搜索中“又贵又慢”?
在金融、法律、医疗等领域,智能体需要处理的是高度零散、私有且难以验证的文档。目前的 SOTA 模型(如 GPT-4/5 等)在处理这类任务时存在两个极端:
- 过度搜索 (Exhaustive Search):模型在已经找到答案后,仍不断发起冗余查询,浪费巨大的 Token 成本。
- 过早放弃 (Giving Up Early):在面对多跳推理(Multi-hop)的复杂限制条件时,模型由于无法立即整合信息而直接回复“无法找到答案”。
现有基准测试(如 HotpotQA)过于简单,无法模拟这种“在干草堆里找多根针”的复杂性。
2. 核心架构:离线 RL 与代理合成
KARL 的成功依赖于一套完整的训练与推理闭环:
2.1 代理合成管道 (Agentic Synthesis)
为了训练模型,作者并没有依赖人工标注,而是开发了一套动态探索管道。
- QA 合成:让智能体自行探索语料库,生成基于检索证据的复杂问题。
- 解法合成与过滤:通过多路尝试,保留那些“既不简单也不可能”的问题(中等难度且具有丰富学习信号),并通过质量过滤智能体剔除事实错误。
2.2 OAPL 算法:更稳定的强化学习
作者没有采用目前流行的在线 GRPO,而是提出了 OAPL (Optimal Advantage-based Policy Optimization)。
- Why? 离线 RL 允许在大规模 MoE(混合专家模型)上稳定训练,无需复杂的启发式权重裁剪。
- How? 它通过最小化平方损失函数,将当前策略向“最优优势函数”引导,从而在多步工具调用中优化 context 管理(如自动压缩历史记录)。
图:aroll 智能体线束架构,支持高吞吐的 RL 训练与评估
3. 实验结果:帕累托前沿的统治力
在包含 6 类硬核任务的 KARLBench 上,KARL 展现出了惊人的效率。
3.1 性能 vs 成本
KARL 在极低的成本下(单次查询不到 0.1 美元)达到了 Claude 4.5 级别的水平。通过扩展测试时计算(N=10 并行),它直接超越了最好的闭源模型。
图:延迟-质量帕累托曲线。KARL(紫色线)在所有预算下都位于左上方的最优点。
3.2 搜索行为的蜕变
研究发现,RL 训练不仅仅是“微调”,它改变了模型的底层逻辑:
- 搜索多样性提升 37%:KARL 学会了避免重复查寻同一区域,而是进行全域扫描。
- 无效搜索步数大幅缩减:在获取全部必要信息后,KARL 能够通过 RL 习得的“自省能力”立刻转入合成阶段,而非盲目确认。
4. 深度洞察:RL 是否真的学习到了新能力?
作者通过分析 Max@k 曲线发现,随着 RL 迭代轮次的增加,模型不仅在 Max@1(首选正确率)上提升,其 Max@16 的天花板也显著抬高。这意味着 RL 扩展了模型解决问题的覆盖范围,让它能够解决基座模型此前即便采样 100 次也无法解决的难题。
然而,KARL 目前也存在局限,例如在涉及极复杂的数学运算时,模型有时会表现出“过早放弃”的情况。这暗示未来的研究应在搜索奖励的基础上,并行引入算术推理的协同奖励。
5. 总结与启示
KARL 的意义在于它打破了“智能体必须依赖最强 LLM”的迷思。通过高质量合成数据 + 领域特定的 RL 目标,即便是较小规模的开源模型也能在特定业务场景(如企业知识库搜索)中,提供比肩甚至超越 GPT/Claude 的生产力表现。
这对企业级闭环 AI 的落地提供了清晰的蓝图:停止堆砌 Prompt,开始构建你的 RL 循环。
致谢:本文基于 Databricks AI Research 2026 年最新论文《KARL: Knowledge Agents via Reinforcement Learning》重构。
