WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] RETROAGENT:让 AI Agent 从“只会解题”进化到“持续演进”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 RETROAGENT,一个面向 LLM Agent 的在线强化学习(RL)框架。该框架通过“事后反思”机制产生双重内在反馈(Dual Intrinsic Feedback):数值反馈用于捕捉子任务的增量进度,语言反馈用于提炼可复用的经验教训。在 ALFWorld、WebShop 等四个复杂交互任务上,RETROAGENT 显著超越了 GRPO 等基线方法,达到了 SOTA 水平。

TL;DR

在传统的 RL 训练中,Agent 往往像一个只会死记硬背的学生。本文提出的 RETROAGENT 通过一种**“事后反思”**机制,赋予了 AI 主动总结经验的能力。它不只看任务成败,更会给自己打超前分(数值反馈)和写错题本(语言反馈),在 WebShop 和 ALFWorld 等真实感任务中刷新了 SOTA 记录。

痛点深挖:Agent 的“死记硬背”困境

当前的 LLM Agent 训练(如使用 PPO 或 GRPO)面临两个核心瓶颈:

  1. 收敛过快,止于次优:一旦 Agent 偶然发现了一条能拿到奖励的路径,它就会疯狂压榨(Exploitation)这一路径,而不再探索可能更优的方案。
  2. “经验”难以跨任务沉淀:模型学习到的知识被锁死在权重中。在一个商店买东西的教训,到了另一个商店可能就完全不记得了,因为缺乏显式的、可供检索的经验记录。

核心机制:双重内在反馈 (Dual Intrinsic Feedback)

RETROAGENT 的核心逻辑在于:在每一轮(Episode)结束后,增加一个“复盘”环节。

1. 内在数值反馈:奖励“虽败犹荣”

传统的 RL 只有 0 或 1 的结果奖励。RETROAGENT 引入了 Potential Score。即使任务最终失败了,但如果 Agent 成功搜索到了商品或完成了清洗动作,它也会获得一个增量奖励。

  • 公式直觉。只有当你这一轮的表现比历史最高平均水平(Baseline)还好时,才给你额外奖励。

2. 内在语言反馈:带 UCB 进化的“错题本”

Agent 会把失败的教训写成一段话。关键在于怎么从万千记忆中选出最有用的?作者提出了 SimUtil-UCB 检索策略

  • 语义相关度:找跟当前任务像的。
  • 效用评分 (Utility):这个教训以前帮我成功过吗?
  • 探索加成 (UCB Bonus):有些教训还没用过,万一它是金点子呢?

模型整体架构图 图1:RETROAGENT 框架概览,展示了从轨迹反思到双重反馈生成的全过程。

实验战绩:全线碾压基线

在四类任务的评测中,RETROAGENT 表现惊人:

  • WebShop (电商交互):成功率相比强基线 GiGPO 提升了 10% 左右。
  • Sokoban (推箱子/逻辑规划):即使是极易陷入死锁的逻辑任务,其成功率也达到了 38.3%,远超基线的 11.2%。

实验结果对比 表1:RETROAGENT 在四个基准任务上的性能表现。

深度洞察:为什么有效?

  1. 反思能力可以共进化:研究发现,如果让反思模型和决策模型一起通过 RL 训练(RL-Trained variant),效果比单纯用 Prompt 触发更好。
  2. 训练效率的飞跃:虽然单步计算变多了,但因为 Agent 不再盲目乱撞,达到同样性能所需的训练步数减少了 32%-46%。

局限性与未来展望

尽管性能强悍,RETROAGENT 依然存在多目标优化的平衡挑战(决策 vs. 反思)。此外,记忆库的动态清理和维护在超大规模场景下仍需进一步优化。

总结:RETROAGENT 证明了 Agent 不仅仅需要被“训练”,更需要被“教育”。通过显式的反思和记忆检索,我们正在让 LLM 真正拥有从历史中学习的能力。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图在强化学习中使用大语言模型生成内在獎励(Intrinsic Rewards)以解决稀疏獎励问题的论文。
  • 哪篇论文最早提出了 UCB 算法在 LLM 记忆检索中的应用,本文的 SimUtil-UCB 在效用函数设计上与之有何差异?
  • 有哪些研究将类似 RETROAGENT 的事后反思(Hindsight Reflection)机制应用到了多模态机器人控制或复杂软件交互任务中?
Contents
[ICLR 2025] RETROAGENT:让 AI Agent 从“只会解题”进化到“持续演进”
1. TL;DR
2. 痛点深挖:Agent 的“死记硬背”困境
3. 核心机制:双重内在反馈 (Dual Intrinsic Feedback)
3.1. 1. 内在数值反馈:奖励“虽败犹荣”
3.2. 2. 内在语言反馈:带 UCB 进化的“错题本”
4. 实验战绩:全线碾压基线
4.1. 深度洞察:为什么有效?
5. 局限性与未来展望