ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

[CVPR 2024] ZeroWBC：无需手操，让类人机器人从人类视频中进化出“自然感”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ZeroWBC，一个能够直接从人类第一视角（Egocentric）视频中学习全身控制策略的类人机器人框架。该方法通过微调多模态大模型（VLM）生成动作序列，并在 Unitree G1 机器人上实现了无需远程操作（Teleoperation）数据的自然场景交互。

TL;DR

传统的机器人训练往往需要昂贵的设备和漫长的人工远程操作（Teleoperation）数据采集。上海人工智能实验室等机构的研究者提出了 ZeroWBC，该框架打破了这一瓶颈。它让机器人能直接“看”人类的第一视角视频，理解任务意图并自动生成高度自然的全身运动序列。在 Unitree G1 机器人上的实验证明，该方法不仅能完成踢球、坐沙发等复杂交互，还具备极强的 Zero-shot 泛化能力。

痛点深挖：昂贵的“教导”与僵硬的“模仿”

让类人机器人像人一样自然地在复杂环境中互动一直是个难题。目前的瓶颈主要有二：

数据成本极高：依赖 Teleoperation 采集数据意味着每增加一个动作，都需要专业人员操作机器人演示成百上千次。
动作支离破碎：许多方法将上肢操作和下肢行走分开训练，导致机器人动作看起来非常诡异、不协调。
环境感知脱节：现有的生成式动作模型大多局限于“跳舞”或“打拳”，并不真正理解周围的视觉障碍。

核心架构：从视觉感知到精准追踪

ZeroWBC 采用了逻辑严密的“感知-生成-执行”两阶段流水线。

1. 第一阶段：多模态动作生成 (Multimodal Motion Generation)

研究者首先训练了一个 VQ-VAE，将连续的 3D 人类动作压缩成离散的 Motion Tokens。随后，他们选择了强大的 Qwen2.5-VL-3B 作为大脑，通过微调使其学会：

输入：当前的文本指令（如“踢那个球”）+ 第一视角相机画面。
输出：预测人类在未来几秒内的全身体态 Token。

模型架构图 图 1：ZeroWBC 的双阶段架构。左侧为基于 VLM 的动作生成，右侧为基于 RL 的通用追踪策略。

2. 第二阶段：通用运动追踪器 (General Motion Tracker)

生成的动作只是“影子”，如何让笨重的金属身躯跟上这个影子？ZeroWBC 引入了基于强化学习（RL）的追踪策略，核心创新在于：

自适应运动调度：通过监控训练误差，自动增加难点动作（如单脚支撑）的采样权重。
课程学习 (Curriculum Learning)：从简单的挥手、行走，逐步过渡到侧手翻、后空翻等高难度动作（Level 1-10）。
时空预测控制：策略不仅看当下的目标，还会“偷看”未来 5 帧的动作趋势，从而提前调整重心。

实验战绩：自然度与泛化性的双重飞跃

在与 SOTA 方法 GMT 的对比中，ZeroWBC 在位置误差（MPJPE）和速度误差（MPJVE）上均表现优异。

实验结果对比 表 1：在各个数据集上的运动追踪精度测试，ZeroWBC 全方位领先。

令人惊叹的 Zero-shot 能力

在实测中，研究者给机器人下达了“坐到椅子上”的指令。值得注意的是，训练集中完全没有椅子相关的数据，只有沙发相关的。机器人成功识别出椅子，并敏锐地察觉到椅子宽度仅与自身躯干相当，随后极其精准地调整位置执行了落座动作。

实际演示 图 2：Unitree G1 机器人展示避障、踢球、坐沙发以及从未见过的坐椅子任务。

深度洞察：为什么 ZeroWBC 更有潜力？

对齐视角 (Perspective Alignment)：作者在采集人类视频数据时，专门将 GoPro 相机挂在人的胸部高度，使其与 G1 机器人的相机安装位置严格匹配。这种“感官一致性”极大地降低了模型在迁移时的理解难度。
解耦规划与控制：由于目前 VLM 推理有约 400ms 的延迟，无法直接闭环控制。ZeroWBC 聪明地选择了“一次性生成长序列动作，再交给高频追踪器执行”的方法，既保留了逻辑理解，又兼顾了运动稳定性。

总结与局限

Takeaway: ZeroWBC 成功的关键在于利用海量互联网人类视频（如 Nymeria 数据集）来对齐文本、图像和动作 Token，让机器人具备了“生活常识”。

局限性：

推理延迟：400ms 的延迟意味着它暂时无法应对快速移动的动态障碍。
力反馈缺失：从视频中学不到“力道”，所以搬运重物时由于没有力反馈，成功率（30%）远低于普通导航。

这款作品无疑为类人机器人走向千家万户提供了一条全新的技术路径：不再需要由于硬件磨损而昂贵的示范，只需要让它“看视频”自学即可。

Find Similar Papers

Try Our Examples

查找最近利用人类第一视角视频（Egocentric Video）进行机器人模仿学习或动作预训练的其他前沿论文。
哪篇论文最早提出了将运动序列转化为离散 Token 并通过 LLM/VLM 进行建模的思路，本文在 Token 编码上做了哪些改进？
有哪些研究致力于解决 VLM 推理高延迟对机器人实时闭锁控制的影响，或者提出了高效的视觉-动作蒸馏方法？

Contents

[CVPR 2024] ZeroWBC：无需手操，让类人机器人从人类视频中进化出“自然感”

1. TL;DR

2. 痛点深挖：昂贵的“教导”与僵硬的“模仿”

3. 核心架构：从视觉感知到精准追踪

3.1. 1. 第一阶段：多模态动作生成 (Multimodal Motion Generation)

3.2. 2. 第二阶段：通用运动追踪器 (General Motion Tracker)

4. 实验战绩：自然度与泛化性的双重飞跃

4.1. 令人惊叹的 Zero-shot 能力

5. 深度洞察：为什么 ZeroWBC 更有潜力？

6. 总结与局限