AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

[CVPR 2026] AutoResearch-RL：让强化学习智能体接管你的 AI 研究工作

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 AutoResearch-RL，一个让 Reinforcement Learning (RL) 智能体在无需人类干预的情况下，自主进行神经架构和超参数研究的框架。通过将代码修改建模为 MDP 动作，并使用 PPO 算法优化策略，该系统在 nanochat 基准测试中自动发现了超越专家调优的 SOTA 配置。

TL;DR

如果 AI 能够像人类研究者一样，通过阅读实验结果、修改代码并优化策略来迭代自己，那会怎样？AutoResearch-RL 框架正是为此而生。它将大语言模型（LLM）定制为一个基于 PPO 的强化学习 Agent，使其在受控的沙盒环境中不断通过修改 train.py 来寻找更好的模型架构和训练配方。实验显示，它不仅能发现 QK-norm 等已知的前沿技术，还能在单 GPU 上自主超越人类专家的调优水平。

背景定位：从黑盒搜索到“算法合成”

传统的神经网络架构搜索（NAS）通常是在一个手工定义的格子（Grid）里选零件，就像在菜单里点菜。而 AutoResearch-RL 的野心更大：它直接在代码层面操作，赋予 Agent 修改优化器逻辑、调整梯度裁剪策略甚至重写 Transformer 层的权限。这标志着 AutoML 从单纯的参数调优（HPO）进化到了**算法合成（Algorithm Synthesis）**阶段。

痛点深挖：昂贵的无效尝试

自主研究中最大的障碍在于计算效率。一个坏的超参数配置可能需要运行数小时甚至数天才能得出“它不行”的结论。前人如 Karpathy 的 autoresearch 原型虽然展示了 Agent 修改代码的潜力，但缺乏严谨的收敛保证和高效的资源调度。

作者通过两个关键 Insight 解决了这一问题：

历史感知（Long-context History）：Agent 不再是“打一枪换一个地方”，而是通过 PPO 学习实验历史，明白什么样的修改是有潜力的。
自我评估（Early-stop Oracle）：引入预测模块，如同一个资深导师，在模型跑前几分钟就能断定它是否会“练废”，从而果断止损。

核心架构：MDP 视角下的科学研究

我们将科研过程建模为一个离散时间的 MDP。其核心在于分离：

Frozen Environment：数据流和评估准则是不可变的，保证公平竞争。
Mutable State：整个 train.py 是 Agent 的画布。
Reward：使用 Tokenizer 无关的 val-bpb（每字节比特数），这比单纯的 Loss 更能反映模型的真实压缩能力。

模型架构图 图 1：AutoResearch-RL 系统全景。Agent 提出 Diff，训练环境执行，SE 模块监控，Reward 反馈并更新策略库。

自我评估模块（SE Module）

该模块通过对前 30s 的 Loss 曲线进行 幂律拟合（Power-law Forecasting），预测最终的 val-bpb。如果预测值显著差于历史最优（Best-ever），系统会通过后续的 SPRT（序列概率比检验）以 95% 的置信度强行终止该任务，将算力释放给下一个候选配置。

实验与结果： Agent 发现了什么？

在针对 nanochat 的基准测试中，AutoResearch-RL 在短短一夜的运行后，其 val-bpb 就从 2.847 降到了 2.681。

实验结果对比 图 2：训练曲线显示，经过 RL 微调的 Agent 发现最优配置的速度远快于随机搜索和零样本 LLM。

Agent 的“原创”发现：

Muon 优化器重缩放：它敏锐地察觉到 Muon 学习率需要从 $2 im es 1 0^{- 3}$ 提升到 $2.8 im es 1 0^{- 3}$ ，同时配合降低 AdamW 的权重衰减。
QK-norm 插入：为了稳定 Attention 熵，它自动在 Query 和 Key 上增加了 $ℓ_{2}$ 归一化。
自适应梯度裁剪：它引入了一个线性预热的剪切调度，而非固定阈值。

这些改动并非乱涂乱画，而是完全符合当前深度学习社区最前沿的训练实践（如 modded-nanogpt 所倡导的方向）。

总结与洞察：科研的终局

AutoResearch-RL 的成功揭示了一个深刻的趋势：算法发现正在变成一项强化学习任务。

优势：Agent 不会疲倦，它能 internalize（内化）研究启发式，明白哪些修改是有害的。
局限性：目前还局限于单文件和单 GPU 场景，扩展到分布式多节点和复杂的项目目录结构将是下一个工程挑战。
展望：当算力足够大时，这类 Agent 可能会发现人类直觉无法触达的、高度复杂的异形网络结构。

结论： 别再手动调包了，未来的 SOTA 或许将诞生在智能体永不停歇的代码迭代之中。

Find Similar Papers

Try Our Examples

查找最近利用 LLM 智能体在自动代码生成或软件工程任务中引入强化学习纠错机制的论文。
哪篇论文最早提出了由 Andrej Karpathy 实现的 autoresearch 原型，本文在其设计基础上做了哪些核心的理论扩展？
有哪些研究将自动神经架构搜索 (NAS) 的方法应用到了大语言模型的优化器选择或量化策略发现中？

Contents

[CVPR 2026] AutoResearch-RL：让强化学习智能体接管你的 AI 研究工作

1. TL;DR

2. 背景定位：从黑盒搜索到“算法合成”

3. 痛点深挖：昂贵的无效尝试

4. 核心架构：MDP 视角下的科学研究

4.1. 自我评估模块（SE Module）

5. 实验与结果： Agent 发现了什么？

6. 总结与洞察：科研的终局