WisPaper
WisPaper
Search
QA
Pricing
TrueCite
BEACON:突破长程障碍,让 LLM Agent 像人类一样通过“阶段性进步”学习
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 BEACON,一种里程碑引导的策略学习框架。该方法通过将长程任务分解为基于里程碑的片段(Segments),并结合时域奖励塑形与双尺度优势估计(Dual-scale Advantage Estimation),在 ALFWorld, WebShop 和 ScienceWorld 等基准测试中显著超越了 GRPO 和 GiGPO,实现了 SOTA 性能。

TL;DR

在训练长决策链的 LLM Agent 时,现有的强化学习(如 GRPO)常因“一步错全盘否”的信用分配机制导致训练崩溃。本文提出的 BEACON 框架通过将长任务切分为以“里程碑”(Milestone)为界的片段,引入局部优势估计,显著提升了样本效率。在 ALFWorld 等基准测试中,BEACON 将长任务成功率从 53.5% 暴力拉升至 92.9%。

1. 痛点:长程任务中的“努力的偏见”

想象你正在教一个 AI 整理厨房:AI 成功找到了肥皂、清理了柜台,但在最后一步放下杯子时手滑了。在传统的轨迹级优化(如 GRPO 或 PPO)中,这整个过程会被打上“失败”的标签。

这种做法导致了两个严重的学术问题:

  • 信用分配错误 (Credit Misattribution):早期完美的动作因为后期的偶然失败被负面梯度惩罚。实验显示,在长程任务中,竟然有超过 40% 的梯度更新是互相矛盾的。
  • 样本饥饿 (Sample Inefficiency):由于长程任务极难完美通关,绝大多数采样轨迹的奖励都是 0。那些已经完成 90% 难度的“部分成功”样本被无情抛弃,浪费了宝贵的信号。

BEACON 动机与性能对比

2. 核心直觉:里程碑的马尔可夫性

BEACON 的核心假设是:如果 Agent 达到了某个里程碑状态(比如拿到了目标物体),那么它之前的操作历史对于下一步的成功就不再重要了。 这种局部独立性允许我们将长轨迹解耦。

核心机制拆解:

  1. 轨迹切分 (Trajectory Partitioning):利用环境的反馈信号(如 Web 页面跳转、物体状态改变)识别里程碑。
  2. 时域奖励塑形 (Temporal Reward Shaping):在片段内部,越接近里程碑的动作获得的奖励权重越高(),引导 Agent 追求效率。
  3. 双尺度优势估计 (Dual-Scale Advantage Estimation)
    • 轨迹级 (Traj-level):保持对全局最终目标的关注。
    • 片段级 (Seg-level)关键创新点。它仅将当前片段与那些“也达到了该里程碑”的轨迹进行对比。这就像在马拉松比赛中,不拿你的第一个 5 公里成绩去和跑完 42 公里的人比,而是只和同样跑完前 5 公里的人比。

BEACON 整体流程架构图

3. 实验结果:全方位的跨代提升

BEACON 在 ALFWorld、WebShop 和 ScienceWorld 三大榜单上均刷新了记录。其优势在任务越长时体现越显著:

  • 性能稳定性:当任务长度增加时,GRPO 的成功率从 76.7% 断崖式下跌至 53.5%,而 BEACON 依然稳住在 92.9% 附近。
  • 样本利用率:有效样本利用率从 23.7% 提升至 82%,这意味着原本被视为垃圾的“失败轨迹”现在转化为了强有力的梯度补充。
  • 超越闭源大模型:使用 Qwen2.5-1.5B 这种小尺寸底座训练出的 BEACON Agent,在专业任务上的成功率甚至大幅超越了 GPT-4o。

不同任务长度下的性能对比

4. 深度洞察:为什么不只是模仿?

有人质疑 BEACON 是否只是在做“里程碑模仿”。作者通过消融实验证明:即使在没有任何时域衰减()的情况下,仅靠里程碑结构,模型也能发现优于专家轨迹(Oracle)的执行策略。

更本质的分析显示,BEACON 的 Zero-Advantage Ratio (ZAR) 在训练初期迅速下降,这说明模型摆脱了“梯度饥饿”。比起粗暴的全局奖励,这种“由于看懂了阶段性进步”而产生的梯度流更加稳定、连续。

5. 总结与反思

BEACON 成功证明了:处理复杂 Agent 任务,不能把 LLM 当成一个黑盒的分类器,而是要将其视为一个在时空中进行状态转换的交互实体。

局限性:目前 BEACON 仍依赖于环境提供的明确反馈(如 Pick-up 成功)来界定里程碑。未来的挑战在于如何利用大模型自身的逻辑推理能力,在没有外部硬信号的情况下,自动、动态地发现这些“认知里程碑”。

对于正在开发自主代理(Autonomous Agents)的团队来说,BEACON 提供的**“片段级对比学习”**思路,无疑是提升模型在复杂业务流程中鲁棒性的重磅武器。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用层级化强化学习(Hierarchical RL)或过程奖励模型(PRM)来解决 LLM Agent 信用分配问题的论文。
  • 哪篇论文最早引入了基于里程碑或子目标(Subgoal)的强化学习奖励塑形理论,本文与其相比有哪些针对语言模型的改进?
  • 有哪些研究探讨了如何自动从环境轨迹中发现里程碑(Milestone Discovery),而不需要预定义的规则或状态检测器?
Contents
BEACON:突破长程障碍,让 LLM Agent 像人类一样通过“阶段性进步”学习
1. TL;DR
2. 1. 痛点:长程任务中的“努力的偏见”
3. 2. 核心直觉:里程碑的马尔可夫性
3.1. 核心机制拆解:
4. 3. 实验结果:全方位的跨代提升
5. 4. 深度洞察:为什么不只是模仿?
6. 5. 总结与反思