WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ACT] 拒绝机械模仿:通过强化学习铸就具备“批判性思维”的 AI 智能体
总结
问题
方法
结果
要点
摘要

本文提出了 Agentic Critical Training (ACT),一种通过强化学习(RL)训练 LLM 智能体识别行动优劣的新范式。该方法在 ALFWorld、WebShop 等基准测试中,相比传统模仿学习提升了 5.07 分,并在 RL 训练基础上进一步提升了 4.62 分,实现了 SOTA 性能。

TL;DR

马里兰大学等机构的研究者提出了 Agentic Critical Training (ACT)。不同于让模型死记硬背专家操作的“模仿学习”,ACT 通过强化学习(RL)教会模型在两个备选方案中“选出更好的那个”。这一简单的转变让模型从“复读机”进化为具备“诊断能力”的智能体,在 WebShop、ALFWorld 等任务中不仅刷写了 SOTA,还意外增强了模型在数学和科学领域的通用推理能力。

核心痛点:为什么 AI 智能体总是“一错再错”?

传统的智能体训练通常使用 Imitation Learning (IL)。想象一个学徒只看师傅怎么做正确的操作。当他自己动手并犯了一个师傅从未犯过的错时(例如在 ALFWorld 环境中迷路),他会因为从未见过“错误状态”而陷入无限死循环。

之前的研究(如 Early Experience)尝试给模型喂一些“反思文本”,告诉它为什么这一步错了。但这依然是 IL:模型只是在背诵“反思的剧本”,而不是真的在思考。

技术突破:从“背诵”到“判别” (Methodology)

ACT 的天才之处在于将 判别能力 作为一种独立的能力进行 RL 训练。其流程分为三步:

  1. 数据构建:将专家操作(正例)与模型生成的备选操作(负例)两两配对。
  2. 批判训练 (Critical Training):使用 GRPO 算法,给模型两个选项,奖励它选出正确的那一个。关键点在于: 没有任何推理过程的监督,模型必须为了拿奖励而“被迫”自发演化出 Chain-of-Thought 来分析行动质量。
  3. 策略优化:在具备了批判眼光后,再进行常规的行动生成训练。

模型架构与流程图 图 1:对比模仿式自我反思(左)与 ACT 的真实自我反思(右)。ACT 通过判别结果的奖励,迫使模型产生内化的推理能力。

实验战绩:全线飘红

在 Qwen3-8B 上的测试显示,ACT 在所有基准测试中均显著超越了单纯的 IL 和 RL:

  • 更强的鲁棒性:在 ALFWorld 的分布外 (OOD) 测试中,ACT 的增益甚至超过了 ID 环境,证明它学到的是逻辑而非记忆。
  • 错误恢复能力:如图 3 所示,当 IL 模型在环境中反复执行无效指令陷入死循环时,ACT 训练的模型能通过推理识别出“位置错误”并成功脱困。

实验结果对比表 表 1:ACT 在各个领域(家居、购物、科学)的性能表现,RL w/ ACT 稳居榜首。

深度洞察:拯救“推理坍塌”

这篇论文最令人兴奋的发现是:ACT 治好了 IL 的“脑萎缩”。 很多开发者发现,针对特定任务做完 SFT 后的模型,其通用的数学和科学逻辑会剧烈下滑(Reasoning Collapse)。这是因为 SFT 的短动作序列覆盖了原始模型的深度推理路径。

而 ACT 利用 RL 的可验证奖励,不仅保留了模型的逻辑,甚至在 GPQA-Diamond 等极难的博士级科学问题上表现更佳。研究观察到了有趣的“自我核查”行为:模型在得出答案后,会自动代回原方程验证。

自我核查行为可视化 图 4:ACT 训练出的模型在处理复杂物理问题时,展现出了系统性的选项排除和代入验证逻辑。

总结与启示

ACT 告诉我们,培养一个强大的 AI 智能体,不应只是给它标准答案,更要给它一套“质量检测标准”。通过强化学习训练判别力,不仅能让智能体在多轮决策中更稳健,也为提升模型的 General Reasoning 提供了一条全新的路径。

学术界下一步: 这种“判别先于生成”的 RL 框架是否能扩展到更复杂的视觉-语言导航或更长程的软件开发智能体中?我们拭目以待。

发现相似论文

试试这些示例

  • 查找最近一年内利用强化学习(RL)不仅提升 LLM 智能体任务成功率,还显式增强其自我反思(Self-reflection)能力的论文。
  • 哪篇论文最早探讨了模仿学习在处理智能体长程决策任务时导致的“推理坍塌”或“分布漂移”问题?
  • 研究如何将 ACT 这种对比判别训练机制应用到多模态智能体(如移动端导航或机器人视觉控制)任务中。
目录
[ACT] 拒绝机械模仿:通过强化学习铸就具备“批判性思维”的 AI 智能体
1. TL;DR
2. 核心痛点:为什么 AI 智能体总是“一错再错”?
3. 技术突破:从“背诵”到“判别” (Methodology)
4. 实验战绩:全线飘红
5. 深度洞察:拯救“推理坍塌”
6. 总结与启示