KARL: Knowledge Agents via Reinforcement Learning

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

KARL: Knowledge Agents via Reinforcement Learning

[2026 顶会] KARL：通过强化学习打造帕累托最优的知识搜索智能体

Summary

Problem

Method

Results

Takeaways

Abstract

本文由 Databricks 团队提出 KARL，一个通过强化学习 (RL) 训练的企业级搜索智能体。该系统在复杂的 KARLBench 基准测试中达到了 SOTA 性能，核心是通过多任务离线 RL 和代理合成数据，显著提升了长程推理和工具使用（Vector Search）的效率。

TL;DR

Databricks AI Research 推出了 KARL (Knowledge Agent via RL)，这是一个专为企业级“落地推理”设计的搜索智能体。它不仅在搜索精度上硬刚 Claude 4.6 和 GPT 5.2，更在成本和延迟上跑赢了所有基线模型。其核心突破在于：利用离线强化学习（OAPL）优化了智能体的搜索策略，使其学会了何时该深度挖掘，何时该果断结案。

1. 痛点：为什么当前的智能体在企业搜索中“又贵又慢”？

在金融、法律、医疗等领域，智能体需要处理的是高度零散、私有且难以验证的文档。目前的 SOTA 模型（如 GPT-4/5 等）在处理这类任务时存在两个极端：

过度搜索 (Exhaustive Search)：模型在已经找到答案后，仍不断发起冗余查询，浪费巨大的 Token 成本。
过早放弃 (Giving Up Early)：在面对多跳推理（Multi-hop）的复杂限制条件时，模型由于无法立即整合信息而直接回复“无法找到答案”。

现有基准测试（如 HotpotQA）过于简单，无法模拟这种“在干草堆里找多根针”的复杂性。

2. 核心架构：离线 RL 与代理合成

KARL 的成功依赖于一套完整的训练与推理闭环：

2.1 代理合成管道 (Agentic Synthesis)

为了训练模型，作者并没有依赖人工标注，而是开发了一套动态探索管道。

QA 合成：让智能体自行探索语料库，生成基于检索证据的复杂问题。
解法合成与过滤：通过多路尝试，保留那些“既不简单也不可能”的问题（中等难度且具有丰富学习信号），并通过质量过滤智能体剔除事实错误。

2.2 OAPL 算法：更稳定的强化学习

作者没有采用目前流行的在线 GRPO，而是提出了 OAPL (Optimal Advantage-based Policy Optimization)。

Why? 离线 RL 允许在大规模 MoE（混合专家模型）上稳定训练，无需复杂的启发式权重裁剪。
How? 它通过最小化平方损失函数，将当前策略向“最优优势函数”引导，从而在多步工具调用中优化 context 管理（如自动压缩历史记录）。

模型架构图 图：aroll 智能体线束架构，支持高吞吐的 RL 训练与评估

3. 实验结果：帕累托前沿的统治力

在包含 6 类硬核任务的 KARLBench 上，KARL 展现出了惊人的效率。

3.1 性能 vs 成本

KARL 在极低的成本下（单次查询不到 0.1 美元）达到了 Claude 4.5 级别的水平。通过扩展测试时计算（N=10 并行），它直接超越了最好的闭源模型。

实验结果对比 图：延迟-质量帕累托曲线。KARL（紫色线）在所有预算下都位于左上方的最优点。

3.2 搜索行为的蜕变

研究发现，RL 训练不仅仅是“微调”，它改变了模型的底层逻辑：

搜索多样性提升 37%：KARL 学会了避免重复查寻同一区域，而是进行全域扫描。
无效搜索步数大幅缩减：在获取全部必要信息后，KARL 能够通过 RL 习得的“自省能力”立刻转入合成阶段，而非盲目确认。

4. 深度洞察：RL 是否真的学习到了新能力？

作者通过分析 Max@k 曲线发现，随着 RL 迭代轮次的增加，模型不仅在 Max@1（首选正确率）上提升，其 Max@16 的天花板也显著抬高。这意味着 RL 扩展了模型解决问题的覆盖范围，让它能够解决基座模型此前即便采样 100 次也无法解决的难题。

然而，KARL 目前也存在局限，例如在涉及极复杂的数学运算时，模型有时会表现出“过早放弃”的情况。这暗示未来的研究应在搜索奖励的基础上，并行引入算术推理的协同奖励。

5. 总结与启示

KARL 的意义在于它打破了“智能体必须依赖最强 LLM”的迷思。通过高质量合成数据 + 领域特定的 RL 目标，即便是较小规模的开源模型也能在特定业务场景（如企业知识库搜索）中，提供比肩甚至超越 GPT/Claude 的生产力表现。

这对企业级闭环 AI 的落地提供了清晰的蓝图：停止堆砌 Prompt，开始构建你的 RL 循环。

致谢：本文基于 Databricks AI Research 2026 年最新论文《KARL: Knowledge Agents via Reinforcement Learning》重构。

Find Similar Papers

Try Our Examples

查找最近关于大语言模型离线强化学习（Off-policy RL）在 Agent 复杂任务中应用的研究论文。
哪篇论文最早提出了 GRPO 算法，本文提到的 OAPL 是如何在分布式框架下改进其 MoE 训练稳定性的？
有哪些研究探讨了将测试时计算（Test-time Compute）扩展到多步推理和外部工具调用（如 RAG）的场景中？

Contents

[2026 顶会] KARL：通过强化学习打造帕累托最优的知识搜索智能体

1. TL;DR

2. 1. 痛点：为什么当前的智能体在企业搜索中“又贵又慢”？

3. 2. 核心架构：离线 RL 与代理合成

3.1. 2.1 代理合成管道 (Agentic Synthesis)

3.2. 2.2 OAPL 算法：更稳定的强化学习

4. 3. 实验结果：帕累托前沿的统治力

4.1. 3.1 性能 vs 成本

4.2. 3.2 搜索行为的蜕变

5. 4. 深度洞察：RL 是否真的学习到了新能力？

6. 5. 总结与启示