Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

[arXiv 2026] Large Reward Models: 突破机器人奖励设计的瓶颈，让 VLM 成为在线导师

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Large Reward Models (LRMs) 框架，通过将视觉语言模型（VLM）适配为密集、帧级的在线奖励生成器，解决了机器人强化学习中的奖励设计难题。该方法在 Qwen3-VL 基础上开发，涵盖了三种奖励模态，在 ManiSkill3 基准测试中实现了超越现有 SOTA（如 RoboReward）的性能。

TL;DR

强化学习（RL）是解决复杂机器人操作的利器，但其核心痛点在于“奖励函数（Reward Function）”难写、难调。本文提出的 Large Reward Models (LRMs) 框架，通过对视觉语言模型（VLM）进行专业化微调，使其能够像人类教练一样，实时对比机器人动作的细微差异，并给出 0 到 1 之间的精确进度反馈。该框架在无需任何人工干预的情况下，显著提升了机器人策略的成功率和样本效率。

核心动机：当模仿学习（IL）遇到瓶颈

目前的通用机器人策略多基于 Imitation Learning (IL)，虽然通过大规模预训练表现不错，但在高精度或长程任务中常遭遇瓶颈（Performance Plateaus）。Reinforcement Learning (RL) 虽然能持续进化，但它极度依赖一个“好”的奖励函数。

以往的方法要么靠人工硬编码（Brittle and manual），要么靠 VLM 对整段视频进行事后打分（Episode-level）。后者的缺点是空间分辨率太低：就像考试结束后才发成绩单，学生在答题过程中无法及时纠错。LRM 的出现，就是为了提供一种**帧级（Frame-level）**的、具备语义理解能力的“实时监考”信号。

核心方法：三面相奖励矩阵

作者认为，单一的奖励信号不足以捕捉复杂的物理交互。因此，LRMs 提供了三种维度的反馈：

Temporal Contrastive Reward (rcont)：对比当前帧与上一帧，判断“是变好了还是变差了”。这种相对评估（Relative Ranking）有效解决了绝对评分时的校准偏置问题。
Absolute Progress Reward (rprog)：对任务完成度进行 0.0 到 1.0 的回归预测。它为复杂的步骤序列提供了“路标”。
Task Completion Reward (rcomp)：二元分类器，判定语义目标是否达成。

模型架构图

为何有效？多模态数据的物理常识补全

为了让 LRMs 具备 Zero-shot 的泛化能力，作者将其在 24 个数据源上进行微调，其中包括了 Open X-Embodiment（机器人数据）、HOI4D（人类操作数据）以及各种模拟环境。这种“博采众长”的做法，让模型学会了从人类的灵巧操作中提取“成功”的标准，并迁移到机器人的视觉观测中。

实验战绩：超越 SOTA 的零样本表现

在 ManiSkill3 这一极具挑战性的长程操作基准测试中，LRM 展现了惊人的效率：

超越最强基线：在 320 个并行环境下，基于 LRM 的 RL 优化策略在成功率上全面超越了 RoboReward 和 Robometer。
效率极高：仅需 30 次 RL 迭代，策略性能就实现了显著飞跃。
现实世界闭环：在真实的“抓取玩具长颈鹿放入碗中”的任务中，LRM 充当了全自动裁决官，通过识别成功视频并过滤失败尝试，将机器人成功率从 38.3% 提升至 51.7%。

实验结果对比

深度洞察：奖励信号的“语义一致性”

文章中一个深刻的发现是：随着 RL 的进行，LRM 给出的奖励信号质量也在提升（ROC-AUC 从 0.66 升至 0.79）。这意味着，当机器人学会了更正确的动作，VLM 也更容易看懂机器人在干什么。这种策略行为与奖励感知之间的“同步优化（Synchronization）”，可能是迈向自主具身智能的关键一步。

总结与期望

LRMs 的成功标志着 VLM 已具备从“静态观察者”向“动态导师”转化的能力。

局限性：目前的推理延迟仍需要通过间隔采样（Interval-Hold）来缓解。
未来方向：如何将这一机制与世界模型（World Models）结合，实现在虚拟空间中的“想象式自进化”，将是下一个研究高地。

关键图表回顾： 真实世界效果图 如图所示，RL 进化后的模型精确纠正了 IL 阶段将长颈鹿放在碗外的执行误差。

Find Similar Papers

Try Our Examples

检索最近一年内利用 Qwen-VL 或类似开源 VLM 进行机器人奖励建模（Reward Modeling）的其他 SOTA 论文。
哪篇早期的机器人学论文首次系统性地讨论了“过程奖励（Process Reward）”与“结果奖励（Outcome Reward）”在操作任务中的效率差异？
调研如何将本文的连续进度回归奖励（Absolute Progress Reward）应用到长航程（Long-horizon）多阶段任务的层级式强化学习中？

Contents

[arXiv 2026] Large Reward Models: 突破机器人奖励设计的瓶颈，让 VLM 成为在线导师

1. TL;DR

2. 核心动机：当模仿学习（IL）遇到瓶颈

3. 核心方法：三面相奖励矩阵

3.1. 为何有效？多模态数据的物理常识补全

4. 实验战绩：超越 SOTA 的零样本表现

5. 深度洞察：奖励信号的“语义一致性”

6. 总结与期望