RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

[ICLR 2025] RETROAGENT：让 AI Agent 从“只会解题”进化到“持续演进”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 RETROAGENT，一个面向 LLM Agent 的在线强化学习（RL）框架。该框架通过“事后反思”机制产生双重内在反馈（Dual Intrinsic Feedback）：数值反馈用于捕捉子任务的增量进度，语言反馈用于提炼可复用的经验教训。在 ALFWorld、WebShop 等四个复杂交互任务上，RETROAGENT 显著超越了 GRPO 等基线方法，达到了 SOTA 水平。

TL;DR

在传统的 RL 训练中，Agent 往往像一个只会死记硬背的学生。本文提出的 RETROAGENT 通过一种**“事后反思”**机制，赋予了 AI 主动总结经验的能力。它不只看任务成败，更会给自己打超前分（数值反馈）和写错题本（语言反馈），在 WebShop 和 ALFWorld 等真实感任务中刷新了 SOTA 记录。

痛点深挖：Agent 的“死记硬背”困境

当前的 LLM Agent 训练（如使用 PPO 或 GRPO）面临两个核心瓶颈：

收敛过快，止于次优：一旦 Agent 偶然发现了一条能拿到奖励的路径，它就会疯狂压榨（Exploitation）这一路径，而不再探索可能更优的方案。
“经验”难以跨任务沉淀：模型学习到的知识被锁死在权重中。在一个商店买东西的教训，到了另一个商店可能就完全不记得了，因为缺乏显式的、可供检索的经验记录。

核心机制：双重内在反馈 (Dual Intrinsic Feedback)

RETROAGENT 的核心逻辑在于：在每一轮（Episode）结束后，增加一个“复盘”环节。

1. 内在数值反馈：奖励“虽败犹荣”

传统的 RL 只有 0 或 1 的结果奖励。RETROAGENT 引入了 Potential Score。即使任务最终失败了，但如果 Agent 成功搜索到了商品或完成了清洗动作，它也会获得一个增量奖励。

公式直觉： $R_{k}^{in t} := max (0, ϕ - Φ_{x})$ 。只有当你这一轮的表现比历史最高平均水平（Baseline）还好时，才给你额外奖励。

2. 内在语言反馈：带 UCB 进化的“错题本”

Agent 会把失败的教训写成一段话。关键在于怎么从万千记忆中选出最有用的？作者提出了 SimUtil-UCB 检索策略：

语义相关度：找跟当前任务像的。
效用评分 (Utility)：这个教训以前帮我成功过吗？
探索加成 (UCB Bonus)：有些教训还没用过，万一它是金点子呢？

模型整体架构图 图1：RETROAGENT 框架概览，展示了从轨迹反思到双重反馈生成的全过程。

实验战绩：全线碾压基线

在四类任务的评测中，RETROAGENT 表现惊人：

WebShop (电商交互)：成功率相比强基线 GiGPO 提升了 10% 左右。
Sokoban (推箱子/逻辑规划)：即使是极易陷入死锁的逻辑任务，其成功率也达到了 38.3%，远超基线的 11.2%。

实验结果对比 表1：RETROAGENT 在四个基准任务上的性能表现。

深度洞察：为什么有效？

反思能力可以共进化：研究发现，如果让反思模型和决策模型一起通过 RL 训练（RL-Trained variant），效果比单纯用 Prompt 触发更好。
训练效率的飞跃：虽然单步计算变多了，但因为 Agent 不再盲目乱撞，达到同样性能所需的训练步数减少了 32%-46%。

局限性与未来展望

尽管性能强悍，RETROAGENT 依然存在多目标优化的平衡挑战（决策 vs. 反思）。此外，记忆库的动态清理和维护在超大规模场景下仍需进一步优化。

总结：RETROAGENT 证明了 Agent 不仅仅需要被“训练”，更需要被“教育”。通过显式的反思和记忆检索，我们正在让 LLM 真正拥有从历史中学习的能力。

Find Similar Papers

Try Our Examples

查找最近其他试图在强化学习中使用大语言模型生成内在獎励（Intrinsic Rewards）以解决稀疏獎励问题的论文。
哪篇论文最早提出了 UCB 算法在 LLM 记忆检索中的应用，本文的 SimUtil-UCB 在效用函数设计上与之有何差异？
有哪些研究将类似 RETROAGENT 的事后反思（Hindsight Reflection）机制应用到了多模态机器人控制或复杂软件交互任务中？

Contents

[ICLR 2025] RETROAGENT：让 AI Agent 从“只会解题”进化到“持续演进”

1. TL;DR

2. 痛点深挖：Agent 的“死记硬背”困境

3. 核心机制：双重内在反馈 (Dual Intrinsic Feedback)

3.1. 1. 内在数值反馈：奖励“虽败犹荣”

3.2. 2. 内在语言反馈：带 UCB 进化的“错题本”

4. 实验战绩：全线碾压基线

4.1. 深度洞察：为什么有效？

5. 局限性与未来展望