论文提出了 StraTA (Strategic Trajectory Abstraction),这是一种通过显式“策略抽象”增强大语言模型(LLM)长程决策能力的强化学习框架。该方法在传统动作之前预测一个紧凑的全局策略,并在 ALFWorld、WebShop 和 SciWorld 等多个基准测试中刷新了 SOTA 纪录,成功率最高提升超 17%。
TL;DR
传统的 LLM 智能体往往像是一个“走一步看一步”的莽撞人。本文提出的 StraTA 框架,通过在强化学习(RL)中引入显式的轨迹级策略抽象,让模型在动手前先思考“大局”。在 ALFWorld 和 SciWorld 等长程决策挑战中,StraTA 显著提升了学习效率,其表现甚至超越了最强的闭源商业模型。
痛点深挖:为什么 LLM Agent 总是“顾头不顾腚”?
在当前 Agentic RL 的研究中,主流方法(如 GRPO)通常采用**反应式(Reactive)**架构:模型观察环境状态 ,然后直接输出动作 。
这种模式存在三个致命缺陷:
- 决策耦合:模型必须在每一个 token 的生成中同时兼顾“宏观意图”和“微观操作”。
- 不一致性:由于缺乏全局约束,Agent 经常在执行中途忘记初衷,导致无效的往复运动(Backtracking)。
- 信度分配困难:在长达几十步的路程中,只有最后一步有奖励,RL 很难判断中间哪一个动作才是真正的“功臣”。

核心机制:StraTA 的“三板斧”
1. 战略引导的层级架构 (Strategy-guided Execution)
StraTA 并不急着让 Agent 出发,而是先让它生成一个紧凑的自然语言策略 。
- Step 0: 根据初始任务描述生成 。
- Interaction: 在后续的每一步转向中,策略 都会被拼接到 Prompt 中,作为始终贯穿的“指南”。
2. 层级化 GRPO 与 Top- 奖励
为了同时训练“写策略的能力”和“执行策略的能力”,StraTA 构造了双层 Rollout 结构:
- 策略层级:针对一个任务采样多个不同策略。
- 动作层级:针对每个策略进行多次重复实验(Rollout)。
值得注意的是,StraTA 使用 Top- 均值 来作为策略的得分。这种设计非常聪明:它只看该策略“上限”有多高,从而排除了因为模型偶然操作失误(Action Noise)而给好策略“打低分”的情况。
3. 多样性探索与关键自评 (Critical Self-judgment)
为了防止 RL 模型陷入“思维定式”,StraTA 使用最远点采样(Farthest Point Sampling, FPS)在语义嵌入空间挑选差异化的策略。同时,引入自评辅助奖励:模型在任务结束后,会反思哪些步骤“不符合战略”或“对进度无贡献”,并给自己打分,实现了极细粒度的信度分配。

实验战绩:开源模型的逆袭
在 WebShop 和 SciWorld 两个高难度基准上,StraTA 的表现令人瞩目。
| 任务 (Success Rate) | 基线方法 (Best Cloased-source) | StraTA (Qwen2.5-7B) | 提升幅度 | | :--- | :--- | :--- | :--- | | ALFWorld | 72.9% (Claude-4) | 93.1% | +20.2% | | WebShop | 22.2% (GPT-5.1) | 84.2% | +62.0% | | SciWorld | 57.4 (Score) | 63.5 | +6.1 |
消融实验验证: 数据显示,单纯增加策略多样性(Diverse)或增加自评(Judgment)都能提升性能,但两者结合时(StraTA 完整版)收敛速度最快且性能上限最高。

深度洞察:为什么这很重要?
StraTA 的成功揭示了 LLM 智能体进化的一个重要趋势:System 2 思考(慢思考)的显式化。
以往我们希望 LLM 通过增加参数量来“隐式”学习逻辑,但 StraTA 告诉我们,通过结构化的轨迹抽象,让模型在自然语言层面显式表达战略意图,不仅能降低 RL 训练的搜索空间,还能显著增强决策的可解释性。这对于未来需要高度可靠性的工业或科研级 Agent 具有极大的启发意义。
总结与局限
StraTA 成功通过轨迹级战略抽象解决了 LLM 在长程决策中的短视问题。
- 优点:极高的样本效率,对复杂环境的强适应性。
- 局限:目前的策略是一次性生成的固化方案,对于环境发生剧烈动态变化的情况,未来可能需要引入“动态策略校准(Adaptive Revision)”。
