WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
强化学习真的扩展了 LLM 智能体的能力边界吗?一个 PASS@(k, T) 视角的深度剖析
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了全新的二维评估框架 PASS@(k, T),旨在探究强化学习(RL)是否能真正扩展大语言模型(LLM)智能体的能力边界。通过在 HotPotQA 等任务上的实验表明,在涉及组合性、顺序性信息获取的任务中,RL 相比于 SFT 能显著扩大智能体的能力边界(Capability Boundary)。

TL;DR

在学术界,关于“强化学习(RL)是否真正赋予了 LLM 新能力”一直存在争议。此前在静态数学推理任务上的研究给出了悲观结论:RL 只是让模型更“稳”,而没变“强”。然而,复旦大学与滑铁卢大学等机构的最新研究《Does RL Expand the Capability Boundary of LLM Agents?》通过引入 PASS@(k, T) 二维评估框架,推翻了这一结论:在需要深度交互的智能体任务中,RL 确实能突破 Base 模型的能力上限。

痛点深挖:广度与深度的缠绕

现有的评估手段(如 pass@k)往往被视为单纯的“采样效率”测试。如果 RL 模型和 Base 模型在采样次数 趋于无穷大时表现趋同,那么 RL 就被认为只是在“炒冷饭”。

但在智能体(Agent)领域,这忽略了交互深度(Interaction Depth, T)。有些复杂问题(如桥接问答 Bridge Questions)需要多步检索,第二步的搜索关键词高度依赖第一步的结果。这种组合性策略在 时无论采样多少次()都无法解决。因此,只看 不看 ,无法衡量智能体在深度探索中的真实潜力。

核心方法论:PASS@(k, T) 框架

作者定义了 PASS@(k, T),即:在给予 次独立尝试、每次最多与环境交互 轮的情况下,智能体至少成功一次的概率。

PASS@(k, T) 公式定义

  • k 轴:探测模型的采样可靠性(采样效率)。
  • T 轴:探测模型的交互能力(组合逻辑)。

通过这个框架,研究者可以精确定位性能提升的来源:是模型变得更稳定了(效率提升),还是模型学会了以前绝对做不到的事情(能力扩展)?

实验战绩:RL 完胜 SFT

研究对比了 Base 模型、SFT(监督微调)和 GRPO(强化学习)。实验任务分为三类:纯推理(Category A)、独立检索(Category B)和顺序检索(Category C)。

1. 能力边界的扩张

在最具代表性的顺序检索任务(Category C)中,结果令人惊讶。随着 的增加,RL 模型的曲线逐渐“拉开”了与 Base 模型的差距,并没有收敛。这证明了 RL 解决了 Base 模型即使通过大量采样也无法处理的难题。

实验结果对比图

2. SFT 的“退化”咒语

更令人深思的是,在相同训练数据下,SFT 竟然导致了能力边界的缩减。SFT 倾向于让模型模仿特定的专家路径,这虽然在 pass@1 上表现尚可,却极大地损害了策略的多样性(Strategy Diversity)。当面对需要灵活转换策略的复杂任务时,SFT 训练的模型反而“变笨”了。

深度洞察:RL 究竟在学什么?

作者通过困惑度(Perplexity)分解分析了 RL 成功的驱动力:

  • 不是学会了“黑话”查询:RL 模型的搜索查询(Search Queries)与 Base 模型的分布差异并不大。
  • 是学会了如何“思考”检索结果:差异主要体现在推理过程(Thought Lines)中。RL 显著优化了模型如何将第一步检索到的事实“缝合”进下一步的决策中。

机制分析图

简单来说,RL 并未发明全新的搜索技术,而是通过“重加权”(Reweighting),让模型更有可能在关键节点选择那些能导向最终正确答案的推理分支。

总结与启示

这项研究为 RL 在大模型时代正了名。在静态任务中,RL 可能是效率加速器;但在智能体、工具调用的动态世界里,RL 是真正的能力放大器。

局限性:虽然本文在 7B 模型上取得了显著结果,但其评估环境相对闭环(BM25 检索)。未来在更开放、更长周期的 Agent 任务(如代码库修复、长期网页导航)中,这种能力扩展是否依然稳健,值得持续关注。

对于开发者而言,启示很明确:如果你在开发需要多步逻辑链的 Agent,不要只迷信高质量数据下的 SFT,基于环境反馈的 RL 探索可能是捅破能力天花板的关键。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决 LLM 智能体在多步工具调用中能力退化(Degradation)问题的论文。
  • 哪篇论文最早探讨了 pass@k 曲线在评估 LLM 训练效果时作为能力边界(Capability Boundary)的理论依据?
  • 有哪些研究将 PASS@(k, T) 类似的二维评估框架应用到了多模态智能体或具身智能(Embodied AI)的任务中?
Contents
强化学习真的扩展了 LLM 智能体的能力边界吗?一个 PASS@(k, T) 视角的深度剖析
1. TL;DR
2. 痛点深挖:广度与深度的缠绕
3. 核心方法论:PASS@(k, T) 框架
4. 实验战绩:RL 完胜 SFT
4.1. 1. 能力边界的扩张
4.2. 2. SFT 的“退化”咒语
5. 深度洞察:RL 究竟在学什么?
6. 总结与启示