WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

强化学习能否让大语言模型有效使用外部工具?

是的,强化学习使大语言模型能够有效使用外部工具,在数学和编程任务中将准确率提升15%至20%,但成功与否取决于具体设置。

直接答案

是的,强化学习(RL)能够显著提升大语言模型(LLMs)使用外部工具(如计算器、代码解释器或搜索API)的能力。例如,Athena框架在数学推理任务中达到83%的准确率,在科学推理任务中达到88%,比GPT-4o高出超过15个百分点[1]。同样,Reflexion框架通过语言强化学习在HumanEval编程基准测试中实现了91%的pass@1,超越了GPT-4的80%[2]。然而,这些提升并非自动实现——它们依赖于精心的奖励设计以及任务的复杂度,部分设置仅带来微小的改进,或需要大量的微调工作。

11篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

强化学习究竟如何帮助大语言模型更好地使用工具?

强化学习(RL)将工具使用转化为一种可习得的技能。它并非仅仅提示大语言模型(LLM)“使用计算器”,而是让模型尝试不同策略、获取反馈(例如答案是否正确),并随时间推移不断改进。这一方法尤为强大,因为LLM往往难以判断何时以及如何调用外部工具——而RL提供了一种结构化的方式来学习这种判断能力。

AGILE框架[11]是一个典型的例子:它将整个大语言模型智能体(具备记忆、工具调用及咨询专家的能力)视为强化学习问题中的策略,并通过PPO算法进行微调。在ProductQA数据集上,一个70亿参数的AGILE智能体表现优于GPT-4智能体,这表明当工具使用成为训练的一部分时,强化学习能使较小的模型超越规模大得多的模型。消融实验证实,移除强化学习会导致性能显著下降,从而证明强化学习并非锦上添花,而是不可或缺的核心要素。

类似地,ToolBox-RL [4] 利用强化学习将查询重写、意图理解和工具检索统一为端到端优化。该方法在白盒与黑盒工具上均取得了最佳的工具调用准确率,更重要的是,它在跨领域数据集上展现出良好的泛化能力——这意味着经过强化学习训练的智能体能够处理训练阶段未曾见过的工具。这表明强化学习帮助大语言模型学习通用的工具使用策略,而不仅仅是记忆特定的工具调用方式。

最佳结果与通常预期之间有多大差距?

最佳证据令人瞩目:Athena框架[1]在数学推理上达到83%的准确率,在科学推理上达到88%,比GPT-4o高出15至20个百分点。Reflexion[2]在HumanEval上取得91%的成绩,比GPT-4高出11个百分点。这些进步幅度巨大,但均源于精心设计的系统,具备特定的反馈循环,且往往经过多轮优化。

然而,典型的结果则更为有限。ChatAssert框架[3]在测试预言生成方面仅比先前的最优方法提升了15%(从27.5%的Acc@1提升至约31.6%)。这虽是有意义的进步,但远不及最佳案例中那种戏剧性的飞跃。TCP-TRL机器人系统[5]在长周期任务上实现了81.86%的成功率,但这仅与使用人类示范训练的最优模型持平,并未超越。由此可见,强化学习能够缩小与人类设计系统之间的差距,但并非总能实现超越。

苹果的“思维错觉”研究[8]提出了一个重要警示:即使经过强化学习训练,大语言模型在超过一定复杂度阈值的问题上,其表现也会骤降至零。然而,当引入外部工具(如Python解释器)后,这种性能崩溃在很大程度上得到了克服。这意味着强化学习结合工具可以拓展能力边界,但依然存在上限——而这个上限取决于工具本身的能力,而非仅仅依赖强化学习训练。

强化学习用于工具调用时有哪些局限?

首先,强化学习需要良好的奖励信号。在放射治疗射束角度优化研究[6]中,基于大语言模型的强化学习方法虽然优于随机基线,但仍需精心设计的奖励函数才能生成具有临床意义的方案。若缺乏明确且可验证的奖励(例如“答案是否正确?”),强化学习可能会强化不良习惯或导致工具调用出现幻觉。

其次,规模至关重要。DeepSeek-R1论文[10]表明,纯强化学习可以在无需人类示范的情况下激发大语言模型的推理能力,但这种能力仅在模型规模足够大(数千亿参数)时才会涌现。较小的模型可能无法发展出同样的自我反思与验证行为。中医处方研究[7]使用了7B参数的模型,通过基于强化学习的偏好优化仅获得了2.01%的提升——与大型系统15-20%的跃升相比,这一进步微乎其微。

第三,工具内化颇具挑战性。TInR框架[9]发现,将工具知识内化至大语言模型(而非依赖外部文档)虽能提升效率,但需包含专用奖励机制的三阶段强化学习训练流程。该方法在领域内表现良好,但在跨领域场景中提升效果并不显著。由此可见,强化学习并不能自动增强工具使用的鲁棒性——它必须与合适的训练数据和奖励结构相结合。

最后,安全性仍是一个悬而未决的问题。OpenAI的GPT-5安全报告[8]指出,增强工具的大语言模型可能被滥用(例如,生成有害任务的详细指令)。强化学习有助于将工具使用与安全边界对齐,但这并非万能灵药——奖励函数必须编码安全性,而这一点很难精确定义。

本文引用的文献

1

将外部工具与大型语言模型(LLMs)集成以提升准确性

Athena框架通过API集成外部工具,在数学推理任务中达到83%的准确率,在科学推理任务中达到88%的准确率,相比GPT-4o提升了超过15个百分点。

2

反思:具备语言强化学习的语言智能体

Reflexion 采用语言强化学习(无需权重更新),在 HumanEval 编码基准测试中实现了 91% 的 pass@1 准确率,超越了 GPT-4 的 80%。

3

ChatAssert:基于大语言模型的测试预言生成与外部工具辅助

ChatAssert利用动态与静态信息优化大语言模型提示,将测试预言生成准确率(Acc@1)相较于此前最先进的teco方法提升了15%。

4

ToolBox-RL:学习在大型代码仓库中泛化工具使用

ToolBox-RL 利用强化学习统一了查询重写与工具检索,在白盒与黑盒工具上均实现了最佳的工具调用准确率,并展现出强大的跨域泛化能力。

5

基于时间上下文的大语言模型规划器与Transformer强化学习的双臂长时程生活护理机器人技术。

TCP-TRL将大语言模型规划器与Transformer强化学习相结合,在双臂生活护理任务上实现了81.86%的成功率,性能与使用人类演示训练的模型相当。

6

基于强化学习启发式迭代优化的放疗射束角度优化方法(采用大语言模型)

一个现成的GPT-4模型,在受强化学习启发的迭代策略引导下,无需任何领域特定的微调,便在放疗射束角度优化中超越了随机基线方法。

7

基于强化学习的可解释中医处方推荐方法,利用小型语言模型中的隐式偏好,为大语言模型提供支持。

采用知识蒸馏与基于强化学习的偏好优化两阶段框架,在中医方剂推荐任务中实现了P@30为35.62%、F1@30为37.36%的性能,其中强化学习仅带来2.01%的提升。

8

本期亮点——大型语言模型(三)

苹果“思维错觉”研究发现,当复杂度超过一定阈值时,大语言模型的推理性能会骤降至零,但通过工具增强(如Python解释器、草稿板)在很大程度上克服了这一局限。

9

TInR:探索大语言模型中的工具内化推理

TInR-U 是一种通过强化学习训练的工具内化推理框架,在领域内和跨领域场景中均取得了优异表现,但其实现需要依赖包含专门奖励机制的三阶段流水线。

10

DeepSeek-R1 通过强化学习激励大语言模型进行推理。

DeepSeek-R1 表明,纯强化学习可以在无需人类示范的情况下激发大语言模型的推理能力,从而在数学、编程及STEM任务的大规模应用中实现更优表现。

11

AGILE:一种面向LLM智能体的新型强化学习框架

AGILE框架通过PPO算法对7B参数的大语言模型进行微调,构建了一个具备记忆、工具使用和专家咨询能力的智能体,在ProductQA数据集上表现优于GPT-4智能体。