Toward Hardware-Agnostic Quadrupedal World Models via Morphology Conditioning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Toward Hardware-Agnostic Quadrupedal World Models via Morphology Conditioning

[CVPR 2025] QWM：迈向硬件无关的通用四足机器人世界模型

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Quadrupedal World Model (QWM)，一种通用的四足机器人世界模型，通过将机器人硬件规格（Morphology）显式嵌入生成式动力学模型，实现了横跨不同硬件平台的 zero-shot 运动控制。该方法在 Hetero-Isaac 仿真环境中训练，并成功在 ANYmal 和 Unitree 等不同规格的真实机器上完成了无微调部署。

TL;DR

长期以来，机器人的世界模型（World Models）一直被困在“硬件锁死”的窘境中：为 Boston Dynamics Spot 训练的模型在换到 Unitree Go1 上时会彻底崩溃。本文提出的 QWM (Quadrupedal World Model) 突破了这一限制。通过将机器人的工程规格（如质量、肢体长度）显式编码进动力学模型，QWM 能够像一个通用的“物理仿真器”一样工作，实现从未见过的机器人形态的 Zero-shot 运动控制。

痛点深挖：硬件博弈与适应延迟

在机器人领域，传统的强化学习（RL）和世界模型往往陷入了“硬件博弈（Hardware Lottery）”。模型过度拟合了特定机器人的动力学参数（如惯性张量、关节限位）。

如果你想让模型适配新机器人，通常有两种做法：

重新训练：耗时耗力，且极其费钱。
隐式辨识 (Implicit System ID)：让模型通过过去的运动历史（History）来“猜”自己是谁。

然而，作者指出，依靠历史来推断形态会产生 “适应延迟（Adaptation Lag）”。这就好比你蒙着眼开车，必须先撞几次墙才能知道车身有多宽。在现实部署中，这种滞后是及其危险的。

核心机制：物理形态编码 (Morphology Conditioning)

QWM 的核心直觉是：物理定律是普适的，只有硬件参数在变。 既然机器人的规格（USD 或 URDF 文件）是已知的工程数据，为什么不直接告诉模型呢？

1. 物理形态编码器 (PME)

QWM 不再让模型去“猜”物理属性，而是通过 PME 提取关键特征：

运动学 (Kinematics)：肢体长度比例（Thigh/Shank Ratio）、关节配置（X型或狗型膝盖）。
几何学 (Geometry)：支撑多边形的宽高比（Aspect Ratio）。
动力学 (Dynamics)：总质量的对数缩放、躯干质量占比。
执行器 (Actuation)：力矩密度（Torque Density）。

2. 形态感知的 RSSM 架构

作者对经典的 DreamerV3 架构进行了深度改造。模型架构图

双塔编码器：将高频的本体感受（Proprioception）数据与静态的形态向量（ $μ$ ）分开处理，防止静态特征被噪声淹没。
显式动力学注入：在 RSSM 的循环状态 $h_{t}$ 中，每一帧都重新注入形态向量 $μ$ 。这极大地减轻了 RNN 的记忆负担，使其能专注于处理瞬时动力学（如足端触地时机）。

3. 自适应奖励归一化 (ARN)

在异构机器人训练中，Spot 的奖励尺度（~350）和 B2 的尺度（~15）完全不同。如果不加干预，模型会被奖励值大的机器人“带偏”。ARN 通过指数移动平均（EMA）动态缩放奖励，确保了不同尺度的机器人都能在同等的梯度强度下进化。

实验战绩：从未见过的机器人也能跑

QWM 在名为 Hetero-Isaac 的全新大规模异构仿真环境中进行了训练，涵盖了从 12kg 的 A1 到 80kg 的 B2 等各类形态。

1. 长程预测保真度

实验显示，QWM 作为一个“神经仿真器”，在 45 步的长程预测中保持了极高的物理一致性。相比于依赖隐式辨识的 PWM 或 DreamerV3，QWM 几乎没有出现动力学漂移。实验结果对比

2. Zero-shot 跨平台转移

这是本论文最惊艳的部分。作者直接将训练好的模型部署到了从未见过的机器人上：

插值能力：模型在 Go1 和 ANYmal-D（训练集中未出现）上表现出色，生成的步态能够自动平衡稳定性与速度。
真机验证：模型以 50Hz 的频率在物理真机上实时运行，成功应对了真实世界的执行器间隙和摩擦力波动。

深度洞察与总结

QWM 的成功不仅在于它“跑通了”，更在于它实现了 隐性记忆与显性属性的解耦。

通过对隐空间（Latent Space）的分析发现：

$h_{t}$ (记忆)：牢牢记住了“我是谁”（形态聚类）。
$z_{t}$ (瞬时状态)：则专注于“我在做什么”（速度、姿态），并在不同机器人之间实现了特征互通。

局限性：尽管 QWM 在形态“插值”上表现近乎完美，但在面对像 Unitree B2 这种完全超出训练分布的“巨型”机器人（插值外推）时仍然会失效。这提示我们，通用的物理理解需要足够广阔的“形态训练谱系”。

未来展望： QWM 为“机器人基础模型”铺平了道路。未来的进化方向可能是利用图神经网络（GNN）或 Transformer 来动态处理变结构的动力学树，从而让同一个世界模型能够同时控制两足、四足甚至机械臂。

Find Similar Papers

Try Our Examples

查找最近其他利用显式几何或运动学信息增强机器人强化学习通用性的论文。
哪篇论文最早在 Dreamer 架构中引入了多任务或跨机器人学习的概念，本文在 RSSM 结构上做了哪些具体改进？
有哪些研究将生成式世界模型应用到了除四足机器人以外的复杂多关节体（如双足或机械臂）的通用控制中？

Contents

[CVPR 2025] QWM：迈向硬件无关的通用四足机器人世界模型

1. TL;DR

2. 痛点深挖：硬件博弈与适应延迟

3. 核心机制：物理形态编码 (Morphology Conditioning)

3.1. 1. 物理形态编码器 (PME)

3.2. 2. 形态感知的 RSSM 架构

3.3. 3. 自适应奖励归一化 (ARN)

4. 实验战绩：从未见过的机器人也能跑

4.1. 1. 长程预测保真度

4.2. 2. Zero-shot 跨平台转移

5. 深度洞察与总结