WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[arXiv 2026] Large Reward Models: 突破机器人奖励设计的瓶颈,让 VLM 成为在线导师
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Large Reward Models (LRMs) 框架,通过将视觉语言模型(VLM)适配为密集、帧级的在线奖励生成器,解决了机器人强化学习中的奖励设计难题。该方法在 Qwen3-VL 基础上开发,涵盖了三种奖励模态,在 ManiSkill3 基准测试中实现了超越现有 SOTA(如 RoboReward)的性能。

TL;DR

强化学习(RL)是解决复杂机器人操作的利器,但其核心痛点在于“奖励函数(Reward Function)”难写、难调。本文提出的 Large Reward Models (LRMs) 框架,通过对视觉语言模型(VLM)进行专业化微调,使其能够像人类教练一样,实时对比机器人动作的细微差异,并给出 0 到 1 之间的精确进度反馈。该框架在无需任何人工干预的情况下,显著提升了机器人策略的成功率和样本效率。

核心动机:当模仿学习(IL)遇到瓶颈

目前的通用机器人策略多基于 Imitation Learning (IL),虽然通过大规模预训练表现不错,但在高精度或长程任务中常遭遇瓶颈(Performance Plateaus)。Reinforcement Learning (RL) 虽然能持续进化,但它极度依赖一个“好”的奖励函数。

以往的方法要么靠人工硬编码(Brittle and manual),要么靠 VLM 对整段视频进行事后打分(Episode-level)。后者的缺点是空间分辨率太低:就像考试结束后才发成绩单,学生在答题过程中无法及时纠错。LRM 的出现,就是为了提供一种**帧级(Frame-level)**的、具备语义理解能力的“实时监考”信号。

核心方法:三面相奖励矩阵

作者认为,单一的奖励信号不足以捕捉复杂的物理交互。因此,LRMs 提供了三种维度的反馈:

  1. Temporal Contrastive Reward (rcont):对比当前帧与上一帧,判断“是变好了还是变差了”。这种相对评估(Relative Ranking)有效解决了绝对评分时的校准偏置问题。
  2. Absolute Progress Reward (rprog):对任务完成度进行 0.0 到 1.0 的回归预测。它为复杂的步骤序列提供了“路标”。
  3. Task Completion Reward (rcomp):二元分类器,判定语义目标是否达成。

模型架构图

为何有效?多模态数据的物理常识补全

为了让 LRMs 具备 Zero-shot 的泛化能力,作者将其在 24 个数据源上进行微调,其中包括了 Open X-Embodiment(机器人数据)、HOI4D(人类操作数据)以及各种模拟环境。这种“博采众长”的做法,让模型学会了从人类的灵巧操作中提取“成功”的标准,并迁移到机器人的视觉观测中。

实验战绩:超越 SOTA 的零样本表现

在 ManiSkill3 这一极具挑战性的长程操作基准测试中,LRM 展现了惊人的效率:

  • 超越最强基线:在 320 个并行环境下,基于 LRM 的 RL 优化策略在成功率上全面超越了 RoboReward 和 Robometer。
  • 效率极高:仅需 30 次 RL 迭代,策略性能就实现了显著飞跃。
  • 现实世界闭环:在真实的“抓取玩具长颈鹿放入碗中”的任务中,LRM 充当了全自动裁决官,通过识别成功视频并过滤失败尝试,将机器人成功率从 38.3% 提升至 51.7%。

实验结果对比

深度洞察:奖励信号的“语义一致性”

文章中一个深刻的发现是:随着 RL 的进行,LRM 给出的奖励信号质量也在提升(ROC-AUC 从 0.66 升至 0.79)。这意味着,当机器人学会了更正确的动作,VLM 也更容易看懂机器人在干什么。这种策略行为与奖励感知之间的“同步优化(Synchronization)”,可能是迈向自主具身智能的关键一步。

总结与期望

LRMs 的成功标志着 VLM 已具备从“静态观察者”向“动态导师”转化的能力。

  • 局限性:目前的推理延迟仍需要通过间隔采样(Interval-Hold)来缓解。
  • 未来方向:如何将这一机制与世界模型(World Models)结合,实现在虚拟空间中的“想象式自进化”,将是下一个研究高地。

关键图表回顾: 真实世界效果图 如图所示,RL 进化后的模型精确纠正了 IL 阶段将长颈鹿放在碗外的执行误差。

Find Similar Papers

Try Our Examples

  • 检索最近一年内利用 Qwen-VL 或类似开源 VLM 进行机器人奖励建模(Reward Modeling)的其他 SOTA 论文。
  • 哪篇早期的机器人学论文首次系统性地讨论了“过程奖励(Process Reward)”与“结果奖励(Outcome Reward)”在操作任务中的效率差异?
  • 调研如何将本文的连续进度回归奖励(Absolute Progress Reward)应用到长航程(Long-horizon)多阶段任务的层级式强化学习中?
Contents
[arXiv 2026] Large Reward Models: 突破机器人奖励设计的瓶颈,让 VLM 成为在线导师
1. TL;DR
2. 核心动机:当模仿学习(IL)遇到瓶颈
3. 核心方法:三面相奖励矩阵
3.1. 为何有效?多模态数据的物理常识补全
4. 实验战绩:超越 SOTA 的零样本表现
5. 深度洞察:奖励信号的“语义一致性”
6. 总结与期望