本文提出 OpenClaw-RL,一个统一的智能体强化学习(RL)框架,旨在通过对 Agent 交互中的“下一步状态信号”(Next-state signals)进行在线学习来持续优化模型。该框架支持个人助理(Personal Agents)的个性化微调以及通用智能体(General Agents,如 GUI、终端、SWE 等)的 SOTA 级别性能提升。
TL;DR
传统的 AI 智能体(Agent)往往是“部署即定型”的,即使它们在交互中收到了用户的纠错信息,也只能作为临时上下文参考。OpenClaw-RL 彻底打破了这一现状。它通过一个异步解耦的框架,将 Agent 每次行动后的“下一步状态信号”(Next-state signals)实时转化为训练梯度。无论是个人助理的语气微调,还是复杂 SWE 任务的路径修正,OpenClaw-RL 都能让 Agent 在“被使用的过程中”变得越来越聪明。
1. 痛点:被浪费的“下文”
在当前的智能体系统中,存在两个严重的“数据浪费”现象:
- 评价性信号的浪费:用户重复提问或终端报错其实都在给上一步动作“打分”,但现有的 PRM(过程奖励模型)多用于静态数学题,很少用于动态交互流。
- 指令性信号的浪费:当用户说“你应该先检查文件再编辑”时,这不仅是一个负反馈,更是一个明确的 Token 级别纠正指令。目前的 RL 架构(如 PPO/GRPO)大多只能处理标量奖惩,无法消化这种丰富的文本引导。
2. 核心架构:四位一体的异步流水线
OpenClaw-RL 基于 slime 框架构建,其核心竞争力在于完全解耦(Fully Decoupled)。

系统包含四个独立运行的循环:
- Serving (SGLang):实时响应请求,零延迟。
- Environment:连接个人设备或云端沙盒(终端、GUI等)。
- PRM / Judge:异步评估交互质量。
- Trainer (Megatron):持续更新权重并平滑推送到 Serving 端。
这种设计保证了模型在持续学习的同时,不会影响用户的正常使用。
3. 两种开采信号的神器:Binary RL 与 OPD
3.1 Binary RL via PRM
这是对“评价性信号”的回收。通过多数投票(Majority Vote),PRM 将用户满意度或工具反馈转化为 $+1, -1, 0$ 的标量奖励。这为长距离任务(Long-horizon tasks)提供了密集的信用分配。
3.2 Hindsight-Guided OPD (最具创新的点)
这是对“指令性信号”的深度压榨。
- 提取 Hint:从下一步状态 $s_{t+1}$ 中提炼出具体的改进方案。
- 构建 Teacher:将 Hint 拼接至原 Prompt 形成增强上下文,让模型“穿越”回去看正确答案。
- Token-Level 蒸馏:计算 Teacher 和原始 Student 输出的 Log-probability 差异。这赋予了模型一个方向性优势(Directional Advantage),告诉模型哪些 Token 该加强,哪些该抑制。

4. 实验见证:从个性化到全能化
4.1 个人助理的“进化”
在学生和老师的模拟场景中,Combined 方法表现最强。实验显示,Agent 仅需 30 次左右的交互,就能学会避开“AI 常用词汇”(如 bold, structured steps),转而使用更加自然、人性化的表达方式。
4.2 通用智能体的 SOTA 突破
OpenClaw-RL 在终端(Terminal)、GUI、软件工程(SWE)和工具调用(Tool-call)四个维度展现了强大的泛化能力。

关键发现:
- 过程奖励(PRM)至关重要:在 GUI 任务中,结合过程奖励后的性能优于仅依赖终端成功率(Outcome-only)的 baseline。
5. 结论与洞察
OpenClaw-RL 的意义在于它提供了一种**“元智能体训练框架”**。它告诉我们,Agent 并不需要一个巨大的预标注数据集,真实世界的每一次交互、每一次报错、每一次用户的吐槽,都是高质量的在线训练数据。通过将标量奖励与 Token 级定向蒸馏相结合,我们离“像人一样在错误中学习”的 AI 又近了一步。
局限性:异步架构虽然高效,但对 PRM 的推理资源有一定需求。未来如何降低实时判定过程中的计算开销将是工程上的重点。
