本文提出了 Agentic Critical Training (ACT),一种通过强化学习(RL)训练 LLM 智能体识别行动优劣的新范式。该方法在 ALFWorld、WebShop 等基准测试中,相比传统模仿学习提升了 5.07 分,并在 RL 训练基础上进一步提升了 4.62 分,实现了 SOTA 性能。
TL;DR
马里兰大学等机构的研究者提出了 Agentic Critical Training (ACT)。不同于让模型死记硬背专家操作的“模仿学习”,ACT 通过强化学习(RL)教会模型在两个备选方案中“选出更好的那个”。这一简单的转变让模型从“复读机”进化为具备“诊断能力”的智能体,在 WebShop、ALFWorld 等任务中不仅刷写了 SOTA,还意外增强了模型在数学和科学领域的通用推理能力。
核心痛点:为什么 AI 智能体总是“一错再错”?
传统的智能体训练通常使用 Imitation Learning (IL)。想象一个学徒只看师傅怎么做正确的操作。当他自己动手并犯了一个师傅从未犯过的错时(例如在 ALFWorld 环境中迷路),他会因为从未见过“错误状态”而陷入无限死循环。
之前的研究(如 Early Experience)尝试给模型喂一些“反思文本”,告诉它为什么这一步错了。但这依然是 IL:模型只是在背诵“反思的剧本”,而不是真的在思考。
技术突破:从“背诵”到“判别” (Methodology)
ACT 的天才之处在于将 判别能力 作为一种独立的能力进行 RL 训练。其流程分为三步:
- 数据构建:将专家操作(正例)与模型生成的备选操作(负例)两两配对。
- 批判训练 (Critical Training):使用 GRPO 算法,给模型两个选项,奖励它选出正确的那一个。关键点在于: 没有任何推理过程的监督,模型必须为了拿奖励而“被迫”自发演化出 Chain-of-Thought 来分析行动质量。
- 策略优化:在具备了批判眼光后,再进行常规的行动生成训练。
图 1:对比模仿式自我反思(左)与 ACT 的真实自我反思(右)。ACT 通过判别结果的奖励,迫使模型产生内化的推理能力。
实验战绩:全线飘红
在 Qwen3-8B 上的测试显示,ACT 在所有基准测试中均显著超越了单纯的 IL 和 RL:
- 更强的鲁棒性:在 ALFWorld 的分布外 (OOD) 测试中,ACT 的增益甚至超过了 ID 环境,证明它学到的是逻辑而非记忆。
- 错误恢复能力:如图 3 所示,当 IL 模型在环境中反复执行无效指令陷入死循环时,ACT 训练的模型能通过推理识别出“位置错误”并成功脱困。
表 1:ACT 在各个领域(家居、购物、科学)的性能表现,RL w/ ACT 稳居榜首。
深度洞察:拯救“推理坍塌”
这篇论文最令人兴奋的发现是:ACT 治好了 IL 的“脑萎缩”。 很多开发者发现,针对特定任务做完 SFT 后的模型,其通用的数学和科学逻辑会剧烈下滑(Reasoning Collapse)。这是因为 SFT 的短动作序列覆盖了原始模型的深度推理路径。
而 ACT 利用 RL 的可验证奖励,不仅保留了模型的逻辑,甚至在 GPQA-Diamond 等极难的博士级科学问题上表现更佳。研究观察到了有趣的“自我核查”行为:模型在得出答案后,会自动代回原方程验证。
图 4:ACT 训练出的模型在处理复杂物理问题时,展现出了系统性的选项排除和代入验证逻辑。
总结与启示
ACT 告诉我们,培养一个强大的 AI 智能体,不应只是给它标准答案,更要给它一套“质量检测标准”。通过强化学习训练判别力,不仅能让智能体在多轮决策中更稳健,也为提升模型的 General Reasoning 提供了一条全新的路径。
学术界下一步: 这种“判别先于生成”的 RL 框架是否能扩展到更复杂的视觉-语言导航或更长程的软件开发智能体中?我们拭目以待。
