Agentic Critical Training

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Agentic Critical Training

[ACT] 拒绝机械模仿：通过强化学习铸就具备“批判性思维”的 AI 智能体

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Agentic Critical Training (ACT)，一种通过强化学习（RL）训练 LLM 智能体识别行动优劣的新范式。该方法在 ALFWorld、WebShop 等基准测试中，相比传统模仿学习提升了 5.07 分，并在 RL 训练基础上进一步提升了 4.62 分，实现了 SOTA 性能。

TL;DR

马里兰大学等机构的研究者提出了 Agentic Critical Training (ACT)。不同于让模型死记硬背专家操作的“模仿学习”，ACT 通过强化学习（RL）教会模型在两个备选方案中“选出更好的那个”。这一简单的转变让模型从“复读机”进化为具备“诊断能力”的智能体，在 WebShop、ALFWorld 等任务中不仅刷写了 SOTA，还意外增强了模型在数学和科学领域的通用推理能力。

核心痛点：为什么 AI 智能体总是“一错再错”？

传统的智能体训练通常使用 Imitation Learning (IL)。想象一个学徒只看师傅怎么做正确的操作。当他自己动手并犯了一个师傅从未犯过的错时（例如在 ALFWorld 环境中迷路），他会因为从未见过“错误状态”而陷入无限死循环。

之前的研究（如 Early Experience）尝试给模型喂一些“反思文本”，告诉它为什么这一步错了。但这依然是 IL：模型只是在背诵“反思的剧本”，而不是真的在思考。

技术突破：从“背诵”到“判别” (Methodology)

ACT 的天才之处在于将 判别能力 作为一种独立的能力进行 RL 训练。其流程分为三步：

数据构建：将专家操作（正例）与模型生成的备选操作（负例）两两配对。
批判训练 (Critical Training)：使用 GRPO 算法，给模型两个选项，奖励它选出正确的那一个。关键点在于： 没有任何推理过程的监督，模型必须为了拿奖励而“被迫”自发演化出 Chain-of-Thought 来分析行动质量。
策略优化：在具备了批判眼光后，再进行常规的行动生成训练。

模型架构与流程图 图 1：对比模仿式自我反思（左）与 ACT 的真实自我反思（右）。ACT 通过判别结果的奖励，迫使模型产生内化的推理能力。

实验战绩：全线飘红

在 Qwen3-8B 上的测试显示，ACT 在所有基准测试中均显著超越了单纯的 IL 和 RL：

更强的鲁棒性：在 ALFWorld 的分布外 (OOD) 测试中，ACT 的增益甚至超过了 ID 环境，证明它学到的是逻辑而非记忆。
错误恢复能力：如图 3 所示，当 IL 模型在环境中反复执行无效指令陷入死循环时，ACT 训练的模型能通过推理识别出“位置错误”并成功脱困。

实验结果对比表 表 1：ACT 在各个领域（家居、购物、科学）的性能表现，RL w/ ACT 稳居榜首。

深度洞察：拯救“推理坍塌”

这篇论文最令人兴奋的发现是：ACT 治好了 IL 的“脑萎缩”。很多开发者发现，针对特定任务做完 SFT 后的模型，其通用的数学和科学逻辑会剧烈下滑（Reasoning Collapse）。这是因为 SFT 的短动作序列覆盖了原始模型的深度推理路径。

而 ACT 利用 RL 的可验证奖励，不仅保留了模型的逻辑，甚至在 GPQA-Diamond 等极难的博士级科学问题上表现更佳。研究观察到了有趣的“自我核查”行为：模型在得出答案后，会自动代回原方程验证。

自我核查行为可视化 图 4：ACT 训练出的模型在处理复杂物理问题时，展现出了系统性的选项排除和代入验证逻辑。

总结与启示

ACT 告诉我们，培养一个强大的 AI 智能体，不应只是给它标准答案，更要给它一套“质量检测标准”。通过强化学习训练判别力，不仅能让智能体在多轮决策中更稳健，也为提升模型的 General Reasoning 提供了一条全新的路径。

学术界下一步： 这种“判别先于生成”的 RL 框架是否能扩展到更复杂的视觉-语言导航或更长程的软件开发智能体中？我们拭目以待。

Find Similar Papers

Try Our Examples

查找最近一年内利用强化学习（RL）不仅提升 LLM 智能体任务成功率，还显式增强其自我反思（Self-reflection）能力的论文。
哪篇论文最早探讨了模仿学习在处理智能体长程决策任务时导致的“推理坍塌”或“分布漂移”问题？
研究如何将 ACT 这种对比判别训练机制应用到多模态智能体（如移动端导航或机器人视觉控制）任务中。

Contents

[ACT] 拒绝机械模仿：通过强化学习铸就具备“批判性思维”的 AI 智能体

1. TL;DR

2. 核心痛点：为什么 AI 智能体总是“一错再错”？

3. 技术突破：从“背诵”到“判别” (Methodology)

4. 实验战绩：全线飘红

5. 深度洞察：拯救“推理坍塌”

6. 总结与启示