T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

T2PO：不确定性引导的探索控制，终结多轮 Agent 训练崩溃

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 T2PO，一种针对多轮代理强化学习（Agentic RL）的动态探索控制框架。该方法通过在 Token 和 Turn（回合）两个层级引入基于自校准不确定性的干预机制，显著提升了推理型大模型在 WebShop、ALFWorld 等复杂交互任务中的训练稳定性和 SOTA 性能。

TL;DR

在多轮强化学习（Multi-turn RL）中，Agent 的“过度思考”和“原地打转”往往是导致训练崩溃的元凶。本文提出的 T2PO (Token- and Turn-level Policy Optimization) 框架，通过监控模型内部的 不确定性（Uncertainty） 动态，在 Token 层级切断无效冗余推理，在 Turn 层级重采样重复行为。它不仅刷新了 WebShop 和 ALFWorld 的 SOTA 记录，更重要的是让 Agent 变得“干脆利落”，训练过程稳如磐石。

1. 痛点深挖：Agent 为什么会“训练崩溃”？

在追求“思考过程（CoT）”的今天，我们发现推理型 LLM Agent 在强化学习中经常展现出一种病态的 Hesitation（迟疑） 行为：

Token 层级的过载：模型生成了极长的思考过程，但在这些 Token 中，信息增益迅速饱和，而随机噪声却不断累积。
Turn 层级的停滞：Agent 在多个回合中反复执行语义相似的错误操作，无法从失败中自我纠正。

这种低质量的 Rollout 引入了巨大的梯度方差，导致 KL 散度和梯度范数在训练中后期瞬间爆炸（见下图），即所谓的 Training Collapse。

训练不稳定性可视化

2. 核心直觉：自校准不确定性信号

作者认为，Token 的熵（Entropy）和置信度（Confidence）虽然都能反映不确定性，但各有限制：熵在极端分布下区分度较差，而置信度忽略了长尾分布。

T2PO 设计了一个 自校准稳定性信号 $M_{t}$ ，通过融合归一化的熵与置信度，创造了一个非线性的等高线空间（见下图）。这个信号能够精准捕捉模型何时对当前思考感到“满意”或是进入了“迷茫的重复”。

不确定性信号对比

3. 方法论详解：双层级干预机制

3.1 Token 层级：思考干预 (TTI)

模型在推理时，会产生一个“啊哈时刻（Aha Moment）”，此时不确定性剧变；但在随后的冗余推理中，不确定性的边际变化（Marginal Change）趋近于零。

逻辑：当一个滑动窗口内的 $M_{t}$ 变化量低于阈值 $ε$ 时，系统强制注入 </think> 标记。
物理含义：既然继续想下去也不会增加确定性，那就立刻停下来去执行。

3.2 Turn 层级：动态采样 (TDS)

如果不确定性在不同回合之间表现出高度相似的模式，说明 Agent 陷入了重复思维。

逻辑：计算回合内的特征信号 $Φ^{k}$ ，若相邻回合的变化 $∣ Φ^{k} - Φ^{k - 1} ∣ < η$ ，则直接丢弃该 Rollout 并触发 重采样。

T2PO 架构概览

4. 实验与结果：不仅更准，而且更稳

在 WebShop 和 ALFWorld 等严苛的交互环境中，T2PO 表现出了碾压级的优势：

性能：在 WebShop 上达到了 81.64% 的成功率，远超 GPT-4o 的 Prompting 表现（23.7%）。
效率：完成相同任务所需的 Token 数量减少了约 20%，交互回合数减少了约 25%（见下图）。

实验效率对比

消融研究

去掉 RFT（冷启动）、TTI 或 TDS 中的任何一个模块，性能都会出现显著下滑，特别是 TDS 的缺失会导致模型在多轮交互中失去多样性。

5. 深度洞察：为什么 T2PO 能有效？

传统的稳定方法（如奖励建模或轨迹过滤）大多是在“事后”修补。而 T2PO 是一种 “事中”干预。它直接在 Agent 产生垃圾轨迹之前就将其截断。

降低 Variance：通过减少冗余 Token，显著降低了策略梯度的方差。
高质量数据流：强迫模型始终在具有高信息增益的区域探索，避免了在低效区域的无效梯度更新。

6. 总结与局限

Takeaway: T2PO 证明了 Agent 的思考不是越长越好，精细化的不确定性感知是实现多轮 RL 稳定性的银弹。

局限性: 目前的阈值 $ε$ 和 $η$ 仍属于启发式超参数。未来的研究方向可以探索如何让阈值随着训练进程自适应演进，从而进一步释放推理型 LLM 的潜力。

Find Similar Papers

Try Our Examples

查找最近其他试图解决大语言模型 Agent 在多轮强化学习中训练崩溃或不稳定性问题的论文。
哪篇论文最早提出了 Group-Relative Policy Optimization (GRPO)，本文在 Advantage 估计上是如何对其进行多轮任务扩展的？
有哪些研究将类似 T2PO 的不确定性引导（Uncertainty-guided）控制机制应用到了自动驾驶或实体机器人导航的强化学习任务中？

Contents

T2PO：不确定性引导的探索控制，终结多轮 Agent 训练崩溃

1. TL;DR

2. 1. 痛点深挖：Agent 为什么会“训练崩溃”？

3. 2. 核心直觉：自校准不确定性信号

4. 3. 方法论详解：双层级干预机制

4.1. 3.1 Token 层级：思考干预 (TTI)

4.2. 3.2 Turn 层级：动态采样 (TDS)

5. 4. 实验与结果：不仅更准，而且更稳

5.1. 消融研究

6. 5. 深度洞察：为什么 T2PO 能有效？

7. 6. 总结与局限