本文推出了 AutoResearch-RL,一个让 Reinforcement Learning (RL) 智能体在无需人类干预的情况下,自主进行神经架构和超参数研究的框架。通过将代码修改建模为 MDP 动作,并使用 PPO 算法优化策略,该系统在 nanochat 基准测试中自动发现了超越专家调优的 SOTA 配置。
TL;DR
如果 AI 能够像人类研究者一样,通过阅读实验结果、修改代码并优化策略来迭代自己,那会怎样?AutoResearch-RL 框架正是为此而生。它将大语言模型(LLM)定制为一个基于 PPO 的强化学习 Agent,使其在受控的沙盒环境中不断通过修改 train.py 来寻找更好的模型架构和训练配方。实验显示,它不仅能发现 QK-norm 等已知的前沿技术,还能在单 GPU 上自主超越人类专家的调优水平。
背景定位:从黑盒搜索到“算法合成”
传统的神经网络架构搜索(NAS)通常是在一个手工定义的格子(Grid)里选零件,就像在菜单里点菜。而 AutoResearch-RL 的野心更大:它直接在代码层面操作,赋予 Agent 修改优化器逻辑、调整梯度裁剪策略甚至重写 Transformer 层的权限。这标志着 AutoML 从单纯的参数调优(HPO)进化到了**算法合成(Algorithm Synthesis)**阶段。
痛点深挖:昂贵的无效尝试
自主研究中最大的障碍在于计算效率。一个坏的超参数配置可能需要运行数小时甚至数天才能得出“它不行”的结论。前人如 Karpathy 的 autoresearch 原型虽然展示了 Agent 修改代码的潜力,但缺乏严谨的收敛保证和高效的资源调度。
作者通过两个关键 Insight 解决了这一问题:
- 历史感知(Long-context History):Agent 不再是“打一枪换一个地方”,而是通过 PPO 学习实验历史,明白什么样的修改是有潜力的。
- 自我评估(Early-stop Oracle):引入预测模块,如同一个资深导师,在模型跑前几分钟就能断定它是否会“练废”,从而果断止损。
核心架构:MDP 视角下的科学研究
我们将科研过程建模为一个离散时间的 MDP。其核心在于分离:
- Frozen Environment:数据流和评估准则是不可变的,保证公平竞争。
- Mutable State:整个
train.py是 Agent 的画布。 - Reward:使用 Tokenizer 无关的
val-bpb(每字节比特数),这比单纯的 Loss 更能反映模型的真实压缩能力。
图 1:AutoResearch-RL 系统全景。Agent 提出 Diff,训练环境执行,SE 模块监控,Reward 反馈并更新策略库。
自我评估模块(SE Module)
该模块通过对前 30s 的 Loss 曲线进行 幂律拟合(Power-law Forecasting),预测最终的 val-bpb。如果预测值显著差于历史最优(Best-ever),系统会通过后续的 SPRT(序列概率比检验)以 95% 的置信度强行终止该任务,将算力释放给下一个候选配置。
实验与结果: Agent 发现了什么?
在针对 nanochat 的基准测试中,AutoResearch-RL 在短短一夜的运行后,其 val-bpb 就从 2.847 降到了 2.681。
图 2:训练曲线显示,经过 RL 微调的 Agent 发现最优配置的速度远快于随机搜索和零样本 LLM。
Agent 的“原创”发现:
- Muon 优化器重缩放:它敏锐地察觉到 Muon 学习率需要从 提升到 ,同时配合降低 AdamW 的权重衰减。
- QK-norm 插入:为了稳定 Attention 熵,它自动在 Query 和 Key 上增加了 归一化。
- 自适应梯度裁剪:它引入了一个线性预热的剪切调度,而非固定阈值。
这些改动并非乱涂乱画,而是完全符合当前深度学习社区最前沿的训练实践(如 modded-nanogpt 所倡导的方向)。
总结与洞察:科研的终局
AutoResearch-RL 的成功揭示了一个深刻的趋势:算法发现正在变成一项强化学习任务。
- 优势:Agent 不会疲倦,它能 internalize(内化)研究启发式,明白哪些修改是有害的。
- 局限性:目前还局限于单文件和单 GPU 场景,扩展到分布式多节点和复杂的项目目录结构将是下一个工程挑战。
- 展望:当算力足够大时,这类 Agent 可能会发现人类直觉无法触达的、高度复杂的异形网络结构。
结论: 别再手动调包了,未来的 SOTA 或许将诞生在智能体永不停歇的代码迭代之中。
