WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
StraTA:拒绝“短视”决策,用战略抽象赋予 LLM 智能体长程规划灵魂
Summary
Problem
Method
Results
Takeaways
Abstract

论文提出了 StraTA (Strategic Trajectory Abstraction),这是一种通过显式“策略抽象”增强大语言模型(LLM)长程决策能力的强化学习框架。该方法在传统动作之前预测一个紧凑的全局策略,并在 ALFWorld、WebShop 和 SciWorld 等多个基准测试中刷新了 SOTA 纪录,成功率最高提升超 17%。

TL;DR

传统的 LLM 智能体往往像是一个“走一步看一步”的莽撞人。本文提出的 StraTA 框架,通过在强化学习(RL)中引入显式的轨迹级策略抽象,让模型在动手前先思考“大局”。在 ALFWorld 和 SciWorld 等长程决策挑战中,StraTA 显著提升了学习效率,其表现甚至超越了最强的闭源商业模型。


痛点深挖:为什么 LLM Agent 总是“顾头不顾腚”?

在当前 Agentic RL 的研究中,主流方法(如 GRPO)通常采用**反应式(Reactive)**架构:模型观察环境状态 ,然后直接输出动作

这种模式存在三个致命缺陷:

  1. 决策耦合:模型必须在每一个 token 的生成中同时兼顾“宏观意图”和“微观操作”。
  2. 不一致性:由于缺乏全局约束,Agent 经常在执行中途忘记初衷,导致无效的往复运动(Backtracking)。
  3. 信度分配困难:在长达几十步的路程中,只有最后一步有奖励,RL 很难判断中间哪一个动作才是真正的“功臣”。

反应式与 StraTA 对比图


核心机制:StraTA 的“三板斧”

1. 战略引导的层级架构 (Strategy-guided Execution)

StraTA 并不急着让 Agent 出发,而是先让它生成一个紧凑的自然语言策略

  • Step 0: 根据初始任务描述生成
  • Interaction: 在后续的每一步转向中,策略 都会被拼接到 Prompt 中,作为始终贯穿的“指南”。

2. 层级化 GRPO 与 Top- 奖励

为了同时训练“写策略的能力”和“执行策略的能力”,StraTA 构造了双层 Rollout 结构:

  • 策略层级:针对一个任务采样多个不同策略。
  • 动作层级:针对每个策略进行多次重复实验(Rollout)。

值得注意的是,StraTA 使用 Top- 均值 来作为策略的得分。这种设计非常聪明:它只看该策略“上限”有多高,从而排除了因为模型偶然操作失误(Action Noise)而给好策略“打低分”的情况。

3. 多样性探索与关键自评 (Critical Self-judgment)

为了防止 RL 模型陷入“思维定式”,StraTA 使用最远点采样(Farthest Point Sampling, FPS)在语义嵌入空间挑选差异化的策略。同时,引入自评辅助奖励:模型在任务结束后,会反思哪些步骤“不符合战略”或“对进度无贡献”,并给自己打分,实现了极细粒度的信度分配。

StraTA 总体架构图


实验战绩:开源模型的逆袭

在 WebShop 和 SciWorld 两个高难度基准上,StraTA 的表现令人瞩目。

| 任务 (Success Rate) | 基线方法 (Best Cloased-source) | StraTA (Qwen2.5-7B) | 提升幅度 | | :--- | :--- | :--- | :--- | | ALFWorld | 72.9% (Claude-4) | 93.1% | +20.2% | | WebShop | 22.2% (GPT-5.1) | 84.2% | +62.0% | | SciWorld | 57.4 (Score) | 63.5 | +6.1 |

消融实验验证: 数据显示,单纯增加策略多样性(Diverse)或增加自评(Judgment)都能提升性能,但两者结合时(StraTA 完整版)收敛速度最快且性能上限最高。

训练效率对比


深度洞察:为什么这很重要?

StraTA 的成功揭示了 LLM 智能体进化的一个重要趋势:System 2 思考(慢思考)的显式化

以往我们希望 LLM 通过增加参数量来“隐式”学习逻辑,但 StraTA 告诉我们,通过结构化的轨迹抽象,让模型在自然语言层面显式表达战略意图,不仅能降低 RL 训练的搜索空间,还能显著增强决策的可解释性。这对于未来需要高度可靠性的工业或科研级 Agent 具有极大的启发意义。

总结与局限

StraTA 成功通过轨迹级战略抽象解决了 LLM 在长程决策中的短视问题。

  • 优点:极高的样本效率,对复杂环境的强适应性。
  • 局限:目前的策略是一次性生成的固化方案,对于环境发生剧烈动态变化的情况,未来可能需要引入“动态策略校准(Adaptive Revision)”。

Find Similar Papers

Try Our Examples

  • 查找在 LLM Agent 强化学习中利用层级化强化学习 (Hierarchical RL) 解决奖励稀疏问题的最新论文。
  • 哪篇论文最早在 Transformer 决策任务中提出了类似“轨迹抽象”或“显式策略引导”的概念?
  • 研究如何将 StraTA 中的策略多样性采样 (FPS) 扩展到多模态具身智能 (Embodied AI) 的动作控制任务中。
Contents
StraTA:拒绝“短视”决策,用战略抽象赋予 LLM 智能体长程规划灵魂
1. TL;DR
2. 痛点深挖:为什么 LLM Agent 总是“顾头不顾腚”?
3. 核心机制:StraTA 的“三板斧”
3.1. 1. 战略引导的层级架构 (Strategy-guided Execution)
3.2. 2. 层级化 GRPO 与 Top-$\delta$ 奖励
3.3. 3. 多样性探索与关键自评 (Critical Self-judgment)
4. 实验战绩:开源模型的逆袭
5. 深度洞察:为什么这很重要?
6. 总结与局限