本文提出了 RETROAGENT,一个面向 LLM Agent 的在线强化学习(RL)框架。该框架通过“事后反思”机制产生双重内在反馈(Dual Intrinsic Feedback):数值反馈用于捕捉子任务的增量进度,语言反馈用于提炼可复用的经验教训。在 ALFWorld、WebShop 等四个复杂交互任务上,RETROAGENT 显著超越了 GRPO 等基线方法,达到了 SOTA 水平。
TL;DR
在传统的 RL 训练中,Agent 往往像一个只会死记硬背的学生。本文提出的 RETROAGENT 通过一种**“事后反思”**机制,赋予了 AI 主动总结经验的能力。它不只看任务成败,更会给自己打超前分(数值反馈)和写错题本(语言反馈),在 WebShop 和 ALFWorld 等真实感任务中刷新了 SOTA 记录。
痛点深挖:Agent 的“死记硬背”困境
当前的 LLM Agent 训练(如使用 PPO 或 GRPO)面临两个核心瓶颈:
- 收敛过快,止于次优:一旦 Agent 偶然发现了一条能拿到奖励的路径,它就会疯狂压榨(Exploitation)这一路径,而不再探索可能更优的方案。
- “经验”难以跨任务沉淀:模型学习到的知识被锁死在权重中。在一个商店买东西的教训,到了另一个商店可能就完全不记得了,因为缺乏显式的、可供检索的经验记录。
核心机制:双重内在反馈 (Dual Intrinsic Feedback)
RETROAGENT 的核心逻辑在于:在每一轮(Episode)结束后,增加一个“复盘”环节。
1. 内在数值反馈:奖励“虽败犹荣”
传统的 RL 只有 0 或 1 的结果奖励。RETROAGENT 引入了 Potential Score。即使任务最终失败了,但如果 Agent 成功搜索到了商品或完成了清洗动作,它也会获得一个增量奖励。
- 公式直觉:。只有当你这一轮的表现比历史最高平均水平(Baseline)还好时,才给你额外奖励。
2. 内在语言反馈:带 UCB 进化的“错题本”
Agent 会把失败的教训写成一段话。关键在于怎么从万千记忆中选出最有用的?作者提出了 SimUtil-UCB 检索策略:
- 语义相关度:找跟当前任务像的。
- 效用评分 (Utility):这个教训以前帮我成功过吗?
- 探索加成 (UCB Bonus):有些教训还没用过,万一它是金点子呢?
图1:RETROAGENT 框架概览,展示了从轨迹反思到双重反馈生成的全过程。
实验战绩:全线碾压基线
在四类任务的评测中,RETROAGENT 表现惊人:
- WebShop (电商交互):成功率相比强基线 GiGPO 提升了 10% 左右。
- Sokoban (推箱子/逻辑规划):即使是极易陷入死锁的逻辑任务,其成功率也达到了 38.3%,远超基线的 11.2%。
表1:RETROAGENT 在四个基准任务上的性能表现。
深度洞察:为什么有效?
- 反思能力可以共进化:研究发现,如果让反思模型和决策模型一起通过 RL 训练(RL-Trained variant),效果比单纯用 Prompt 触发更好。
- 训练效率的飞跃:虽然单步计算变多了,但因为 Agent 不再盲目乱撞,达到同样性能所需的训练步数减少了 32%-46%。
局限性与未来展望
尽管性能强悍,RETROAGENT 依然存在多目标优化的平衡挑战(决策 vs. 反思)。此外,记忆库的动态清理和维护在超大规模场景下仍需进一步优化。
总结:RETROAGENT 证明了 Agent 不仅仅需要被“训练”,更需要被“教育”。通过显式的反思和记忆检索,我们正在让 LLM 真正拥有从历史中学习的能力。
