Milestone-Guided Policy Learning for Long-Horizon Language Agents

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Milestone-Guided Policy Learning for Long-Horizon Language Agents

BEACON：突破长程障碍，让 LLM Agent 像人类一样通过“阶段性进步”学习

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 BEACON，一种里程碑引导的策略学习框架。该方法通过将长程任务分解为基于里程碑的片段（Segments），并结合时域奖励塑形与双尺度优势估计（Dual-scale Advantage Estimation），在 ALFWorld, WebShop 和 ScienceWorld 等基准测试中显著超越了 GRPO 和 GiGPO，实现了 SOTA 性能。

TL;DR

在训练长决策链的 LLM Agent 时，现有的强化学习（如 GRPO）常因“一步错全盘否”的信用分配机制导致训练崩溃。本文提出的 BEACON 框架通过将长任务切分为以“里程碑”（Milestone）为界的片段，引入局部优势估计，显著提升了样本效率。在 ALFWorld 等基准测试中，BEACON 将长任务成功率从 53.5% 暴力拉升至 92.9%。

1. 痛点：长程任务中的“努力的偏见”

想象你正在教一个 AI 整理厨房：AI 成功找到了肥皂、清理了柜台，但在最后一步放下杯子时手滑了。在传统的轨迹级优化（如 GRPO 或 PPO）中，这整个过程会被打上“失败”的标签。

这种做法导致了两个严重的学术问题：

信用分配错误 (Credit Misattribution)：早期完美的动作因为后期的偶然失败被负面梯度惩罚。实验显示，在长程任务中，竟然有超过 40% 的梯度更新是互相矛盾的。
样本饥饿 (Sample Inefficiency)：由于长程任务极难完美通关，绝大多数采样轨迹的奖励都是 0。那些已经完成 90% 难度的“部分成功”样本被无情抛弃，浪费了宝贵的信号。

BEACON 动机与性能对比

2. 核心直觉：里程碑的马尔可夫性

BEACON 的核心假设是：如果 Agent 达到了某个里程碑状态（比如拿到了目标物体），那么它之前的操作历史对于下一步的成功就不再重要了。 这种局部独立性允许我们将长轨迹解耦。

核心机制拆解：

轨迹切分 (Trajectory Partitioning)：利用环境的反馈信号（如 Web 页面跳转、物体状态改变）识别里程碑。
时域奖励塑形 (Temporal Reward Shaping)：在片段内部，越接近里程碑的动作获得的奖励权重越高（ $r_{t} = R_{m s} \cdot γ^{t_{k} - t}$ ），引导 Agent 追求效率。
双尺度优势估计 (Dual-Scale Advantage Estimation)：
- 轨迹级 (Traj-level)：保持对全局最终目标的关注。
- 片段级 (Seg-level)：关键创新点。它仅将当前片段与那些“也达到了该里程碑”的轨迹进行对比。这就像在马拉松比赛中，不拿你的第一个 5 公里成绩去和跑完 42 公里的人比，而是只和同样跑完前 5 公里的人比。

BEACON 整体流程架构图

3. 实验结果：全方位的跨代提升

BEACON 在 ALFWorld、WebShop 和 ScienceWorld 三大榜单上均刷新了记录。其优势在任务越长时体现越显著：

性能稳定性：当任务长度增加时，GRPO 的成功率从 76.7% 断崖式下跌至 53.5%，而 BEACON 依然稳住在 92.9% 附近。
样本利用率：有效样本利用率从 23.7% 提升至 82%，这意味着原本被视为垃圾的“失败轨迹”现在转化为了强有力的梯度补充。
超越闭源大模型：使用 Qwen2.5-1.5B 这种小尺寸底座训练出的 BEACON Agent，在专业任务上的成功率甚至大幅超越了 GPT-4o。

不同任务长度下的性能对比

4. 深度洞察：为什么不只是模仿？

有人质疑 BEACON 是否只是在做“里程碑模仿”。作者通过消融实验证明：即使在没有任何时域衰减（ $γ = 0$ ）的情况下，仅靠里程碑结构，模型也能发现优于专家轨迹（Oracle）的执行策略。

更本质的分析显示，BEACON 的 Zero-Advantage Ratio (ZAR) 在训练初期迅速下降，这说明模型摆脱了“梯度饥饿”。比起粗暴的全局奖励，这种“由于看懂了阶段性进步”而产生的梯度流更加稳定、连续。

5. 总结与反思

BEACON 成功证明了：处理复杂 Agent 任务，不能把 LLM 当成一个黑盒的分类器，而是要将其视为一个在时空中进行状态转换的交互实体。

局限性：目前 BEACON 仍依赖于环境提供的明确反馈（如 Pick-up 成功）来界定里程碑。未来的挑战在于如何利用大模型自身的逻辑推理能力，在没有外部硬信号的情况下，自动、动态地发现这些“认知里程碑”。

对于正在开发自主代理（Autonomous Agents）的团队来说，BEACON 提供的**“片段级对比学习”**思路，无疑是提升模型在复杂业务流程中鲁棒性的重磅武器。

Find Similar Papers

Try Our Examples

查找最近其他利用层级化强化学习（Hierarchical RL）或过程奖励模型（PRM）来解决 LLM Agent 信用分配问题的论文。
哪篇论文最早引入了基于里程碑或子目标（Subgoal）的强化学习奖励塑形理论，本文与其相比有哪些针对语言模型的改进？
有哪些研究探讨了如何自动从环境轨迹中发现里程碑（Milestone Discovery），而不需要预定义的规则或状态检测器？

Contents

BEACON：突破长程障碍，让 LLM Agent 像人类一样通过“阶段性进步”学习

1. TL;DR

2. 1. 痛点：长程任务中的“努力的偏见”

3. 2. 核心直觉：里程碑的马尔可夫性

3.1. 核心机制拆解：

4. 3. 实验结果：全方位的跨代提升

5. 4. 深度洞察：为什么不只是模仿？

6. 5. 总结与反思