Experiential Reflective Learning for Self-Improving LLM Agents

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Experiential Reflective Learning for Self-Improving LLM Agents

[ICLR 2026 投稿] ERL 框架：让 LLM Agent 拥有“长记性”，GAIA2 性能提升 7.8%

总结

问题

方法

结果

要点

摘要

本文提出了 Experiential Reflective Learning (ERL)，一种旨在通过经验积累实现自我进化的 LLM Agent 框架。ERL 通过反思任务轨迹生成可复用的启发式准则（Heuristics），并在测试时动态检索相关准则注入 Context。在 Gaia2 基准测试中，该方法将 ReAct 基线的成功率提升了 7.8%，显著增强了 Agent 处理复杂长程任务的可靠性。

TL;DR

面对陌生环境，人类会总结经验教训以防重蹈覆辙，但 LLM Agent 通常“记吃不记打”，每个任务都从头开始。本文提出的 Experiential Reflective Learning (ERL) 框架通过将过往的成功或失败轨迹反思为启发式准则 (Heuristics)，并在新任务中精准检索和应用这些准则，使 Agent 具备了持续自我进化的能力。在 Gaia2 基准上，该方法不仅刷新了 SOTA，更在任务执行的稳定性上实现了质的飞跃。

痛点深挖：为什么 LLM Agent 难以“久经沙场”？

当前的 LLM Agent（如 ReAct 架构）在处理多步规划时存在两个核心局限：

经验孤岛：Agent 不会存储过往与工具交互的细节，导致即使之前在同一类任务上栽过跟头，下次由于上下文刷新，依然会犯同样的错。
泛化瓶颈：现有的经验学习方法（如把之前的对话作为 Few-shot）太吃 Context 长度，且原始轨迹中充满了噪声，模型很难直接从长长的 Log 中学习抽象规律。

核心方法：从轨迹到启发式准则 (Heuristics)

ERL 的核心直觉是：轨迹是具体的，但逻辑是通用的。

1. 结构化反思 (Heuristic Generation)

Agent 在完成（或失败）一个任务后，会启动一个反思模块。它不仅仅记录“我做了什么”，而是生成一个包含以下要素的准则：

分析 (Analysis)：识别导致成功的关键步骤或导致失败的陷阱。
准则 (Guideline)：带有明确触发条件（Trigger Conditions）的操作建议。例如：“在调用发送邮件 API 前，务必先通过联系人工具解析姓名”。

2. 模型架构与流程

如图 1 所示，ERL 分为经验累积和检索执行两个阶段。

ERL 框架架构图

3. 基于 LLM 的精准检索

与传统的 Embedding 向量检索不同，ERL 发现单纯依靠语义相似度是不够的。作者使用 LLM（如 GPT-5.2）作为 Ranker，分析当前任务可能遇到的挑战，从库中选出最具有“教训意义”的 Top-20 准则注入 Prompt。

实验与结果：可靠性的巨大飞跃

ERL 在 Gaia2 这一公认的 Agent 难题集上进行了验证。该基准包含 12 个应用和 101 个工具，极度考验模型的工具调用能力。

SOTA 对比

在执行（Execution）和搜索（Search）任务中，ERL 全面超越了基线和竞争对手。

实验结果对比表

核心洞察：失败 vs. 成功

论文提出了一个非常有意思的视角：

学习失败经验：对“搜索类”任务提升巨大。失败的教训像是一种“负约束”，告诉 Agent 哪些坑不要踩。
学习成功经验：对“执行类”任务更有帮助。成功的案例提供了清晰的“成功模板”，强化了正确的操作序列。

稳定性分析 (Pass^3)

ERL 最令人印象深刻的提升在于 pass^3 指标（即连续三次尝试都必须成功）。如图 3 所示，ERL 显著增强了 Agent 的可靠性，这意味着它不再是“偶尔撞大运”，而是真正掌握了环境的逻辑。

可靠性指标对比图

深度思考：启发式准则的“降维打击”

实验还对比了直接提供原始轨迹（Few-shot）的效果。结果证明，即使在同样的 Token 预算下，启发式准则的泛化性能远超原始轨迹。这说明对经验的“二次加工”和“抽象化”是智能进化的关键。Agent 不应该只是复读机，而应该成为能够总结方法论的思考者。

总结与未来展望

ERL 提供了一个简单且高效的框架，使得 LLM Agent 可以在不更新模型参数的情况下，通过“吃一堑长一智”实现性能增长。

局限性：随着经验库的无限增长，如何处理冲突的准则（Conflicting Guidelines）以及如何维持高昂的检索成本将是未来的挑战。

启示：对于开发者而言，建立一个环境相关的“避坑指南”数据库，并动态喂给 Agent，可能比单纯追求更强的基础模型更有效。

发现相似论文

试试这些示例

查找最近其他关于如何提高 LLM Agent 在长程任务中可靠性（Reliability/Consistency）的自进化学习方法。
哪篇论文最早引入了 Reflexion 原理进行 Agent 自我修正，ERL 在单次尝试反思（Single-attempt Reflection）上做了哪些改进？
研究如何将 ERL 这种基于启发式准则的经验库扩展到多模态 Agent 或具身智能（Embodied AI）任务中。

[ICLR 2026 投稿] ERL 框架：让 LLM Agent 拥有“长记性”，GAIA2 性能提升 7.8%

1. TL;DR

2. 痛点深挖：为什么 LLM Agent 难以“久经沙场”？

3. 核心方法：从轨迹到启发式准则 (Heuristics)

3.1. 1. 结构化反思 (Heuristic Generation)

3.2. 2. 模型架构与流程

3.3. 3. 基于 LLM 的精准检索

4. 实验与结果：可靠性的巨大飞跃

4.1. SOTA 对比

4.2. 核心洞察：失败 vs. 成功

4.3. 稳定性分析 (Pass^3)

5. 深度思考：启发式准则的“降维打击”

6. 总结与未来展望