Internalizing Agency from Reflective Experience

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Internalizing Agency from Reflective Experience

[ICLR 2025] LEAFE：拒绝盲目尝试，让大模型在反思中内化“智能体性”

总结

问题

方法

结果

要点

摘要

本文提出了 LEAFE 框架，旨在通过“回溯与反思”机制提升大语言模型（LLM）作为自主智能体的环境交互能力。该方法在测试集 CodeContests 和 WebShop 等任务上显著提升了 Pass@k 性能，尤其在 Pass@128 指标上比基线模型高出多达 14%。

TL;DR

当前大模型智能体（Agents）训练的一大痛点是“只会做做过的题”。本文提出的 LEAFE 框架通过让模型在训练阶段经历“失败 -> 回溯 -> 反思 -> 纠正”的全过程，并将这种纠错能力通过蒸馏内化到模型参数中。实验证明，这种方法能显著拓宽模型的探索边界，在长程任务（如复杂编程和网页导航）中，通过高频采样获得的性能上限（Pass@128）获得了质的飞跃。

背景定位：奖励的“贫瘠”与分布的“锐化”

在当前的 RLVR（基于验证奖励的强化学习）范式下（如 DeepSeek-R1 使用的 GRPO），我们通常给模型一个最终的成功/失败信号（0 或 1）。虽然这能提升 Pass@1（即模型一击即中的概率），但研究发现这往往会导致 Distribution Sharpening。

痛点：模型变得过于保守，只会复现那些它本来就有点把握的成功路径。
后果：当任务变得极长、环境反馈极其复杂时，模型一旦踏错一步就全盘皆输，增加采样次数（Pass@k）也无法找回成功路径。

核心机制：LEAFE 的两阶段进化论

LEAFE 的核心直觉是：与其告诉模型“你错了”，不如教它“哪里错了以及如何回溯修正”。

第一阶段：基于树的带回溯经验生成

模型并不只是盲目地进行 Rollout。每隔一段时间或遇到错误，模型会调用一个“反思过程”：

定位：识别轨迹中哪一步（ $a u$ ）导致了偏离。
总结：生成一个简短的行动建议 $e$ （经验摘要）。
分支：重置环境到 $a u$ 点，在 $e$ 的指导下探索一条新路径。这构建了一个隐式的“回溯树”，产生了大量包含纠错逻辑的成功轨迹。

第二阶段：经验蒸馏（Internalization）

这是 LEAFE 最关键的一步。它不要求在测试时进行昂贵的反思，而是通过监督微调（SFT）将纠错行为内化：

反事实训练：模型被要求在没有显式经验 $e$ 的情况下，预测出那些在第一阶段通过 $e$ 才纠正过来的动作。
行为排练：保留原始的成功路径，防止模型忘本。

LEAFE 整体架构图 图 2：LEAFE 框架示意图，展示了从回溯探索到参数蒸馏的过程。

实验战绩：突破能力 ceiling

LEAFE 在 CodeContests (编程)、WebShop (导航)、Sokoban (推箱子) 等任务上进行了全面评估。

SOTA 的新高度：在 Qwen2.5-72B 上，LEAFE 将 CodeContests 的 Pass@128 从基线的 33.9% 提升至 47.9%。
样本效率：观察图 3 的 Scaling 曲线可以发现，LEAFE 在采样次数增加时，其成功率的增长斜率远高于 GRPO。这意味着 LEAFE 训练出的模型更有“韧性”，能够通过多几次尝试解决极其困难的问题。

实验结果对比 图 3：随着采样次数 k 的增加，LEAFE（红色曲线）展现出显著优于基线的探索效率。

深度洞察：为什么回溯比盲目 Reinforce 有效？

LEAFE 的成功证明了：智能体性的核心在于对反馈的响应能力。 普通的 RL 只是给成功路径加权重，而 LEAFE 提供了“决策级”的监督。它显式地告诉模型：“当你在第 3 步遇到这种编译器报错时，你应该回滚到第 2 步重新考虑算法逻辑”。这种从失败中学习的能力，比单纯奖励成功要丰富得多。

此外，消融实验（Ablation Study）显示，LEAFE 处理 OOD（分布外）任务的健壮性更好。这是因为模型学习的是一种“通用的纠错逻辑”，而不是特定的数据集答案。

局限性与展望

尽管表现强劲，LEAFE 仍依赖于一个前提：环境必须是可重置或可回溯的。这在模拟环境（代码、游戏）中很容易，但在一些不可逆的现实物理场景中仍具挑战。

总结而言，LEAFE 为 LLM Agent 的后训练提供了一个新范式：不要只通过奖励来“对齐”答案，要通过蒸馏反思过程来“强化”智能。

关键词：LLM Agents, Rollback, Reinforcement Learning, Internalization, Pass@k

发现相似论文

试试这些示例

查找最近其他试图通过增加中间思考步骤或轨迹回溯来解决大语言模型智能体长程规划问题的论文。
哪篇论文最早提出了 ReAct 或 Reflexion 框架，LEAFE 如何从“外部提示词驱动”优化为“参数内化”的？
有哪些研究探讨了分布锐化（Distribution Sharpening）在强化学习后训练中对 LLM 泛化能力的影响？

[ICLR 2025] LEAFE：拒绝盲目尝试，让大模型在反思中内化“智能体性”

1. TL;DR

2. 背景定位：奖励的“贫瘠”与分布的“锐化”

3. 核心机制：LEAFE 的两阶段进化论

3.1. 第一阶段：基于树的带回溯经验生成

3.2. 第二阶段：经验蒸馏（Internalization）

4. 实验战绩：突破能力 ceiling

5. 深度洞察：为什么回溯比盲目 Reinforce 有效？

6. 局限性与展望