本文提出了 Quadrupedal World Model (QWM),一种通用的四足机器人世界模型,通过将机器人硬件规格(Morphology)显式嵌入生成式动力学模型,实现了横跨不同硬件平台的 zero-shot 运动控制。该方法在 Hetero-Isaac 仿真环境中训练,并成功在 ANYmal 和 Unitree 等不同规格的真实机器上完成了无微调部署。
TL;DR
长期以来,机器人的世界模型(World Models)一直被困在“硬件锁死”的窘境中:为 Boston Dynamics Spot 训练的模型在换到 Unitree Go1 上时会彻底崩溃。本文提出的 QWM (Quadrupedal World Model) 突破了这一限制。通过将机器人的工程规格(如质量、肢体长度)显式编码进动力学模型,QWM 能够像一个通用的“物理仿真器”一样工作,实现从未见过的机器人形态的 Zero-shot 运动控制。
痛点深挖:硬件博弈与适应延迟
在机器人领域,传统的强化学习(RL)和世界模型往往陷入了“硬件博弈(Hardware Lottery)”。模型过度拟合了特定机器人的动力学参数(如惯性张量、关节限位)。
如果你想让模型适配新机器人,通常有两种做法:
- 重新训练:耗时耗力,且极其费钱。
- 隐式辨识 (Implicit System ID):让模型通过过去的运动历史(History)来“猜”自己是谁。
然而,作者指出,依靠历史来推断形态会产生 “适应延迟(Adaptation Lag)”。这就好比你蒙着眼开车,必须先撞几次墙才能知道车身有多宽。在现实部署中,这种滞后是及其危险的。
核心机制:物理形态编码 (Morphology Conditioning)
QWM 的核心直觉是:物理定律是普适的,只有硬件参数在变。 既然机器人的规格(USD 或 URDF 文件)是已知的工程数据,为什么不直接告诉模型呢?
1. 物理形态编码器 (PME)
QWM 不再让模型去“猜”物理属性,而是通过 PME 提取关键特征:
- 运动学 (Kinematics):肢体长度比例(Thigh/Shank Ratio)、关节配置(X型或狗型膝盖)。
- 几何学 (Geometry):支撑多边形的宽高比(Aspect Ratio)。
- 动力学 (Dynamics):总质量的对数缩放、躯干质量占比。
- 执行器 (Actuation):力矩密度(Torque Density)。
2. 形态感知的 RSSM 架构
作者对经典的 DreamerV3 架构进行了深度改造。

- 双塔编码器:将高频的本体感受(Proprioception)数据与静态的形态向量()分开处理,防止静态特征被噪声淹没。
- 显式动力学注入:在 RSSM 的循环状态 中,每一帧都重新注入形态向量 。这极大地减轻了 RNN 的记忆负担,使其能专注于处理瞬时动力学(如足端触地时机)。
3. 自适应奖励归一化 (ARN)
在异构机器人训练中,Spot 的奖励尺度(~350)和 B2 的尺度(~15)完全不同。如果不加干预,模型会被奖励值大的机器人“带偏”。ARN 通过指数移动平均(EMA)动态缩放奖励,确保了不同尺度的机器人都能在同等的梯度强度下进化。
实验战绩:从未见过的机器人也能跑
QWM 在名为 Hetero-Isaac 的全新大规模异构仿真环境中进行了训练,涵盖了从 12kg 的 A1 到 80kg 的 B2 等各类形态。
1. 长程预测保真度
实验显示,QWM 作为一个“神经仿真器”,在 45 步的长程预测中保持了极高的物理一致性。相比于依赖隐式辨识的 PWM 或 DreamerV3,QWM 几乎没有出现动力学漂移。

2. Zero-shot 跨平台转移
这是本论文最惊艳的部分。作者直接将训练好的模型部署到了从未见过的机器人上:
- 插值能力:模型在 Go1 和 ANYmal-D(训练集中未出现)上表现出色,生成的步态能够自动平衡稳定性与速度。
- 真机验证:模型以 50Hz 的频率在物理真机上实时运行,成功应对了真实世界的执行器间隙和摩擦力波动。

深度洞察与总结
QWM 的成功不仅在于它“跑通了”,更在于它实现了 隐性记忆与显性属性的解耦。
通过对隐空间(Latent Space)的分析发现:
- (记忆):牢牢记住了“我是谁”(形态聚类)。
- (瞬时状态):则专注于“我在做什么”(速度、姿态),并在不同机器人之间实现了特征互通。
局限性: 尽管 QWM 在形态“插值”上表现近乎完美,但在面对像 Unitree B2 这种完全超出训练分布的“巨型”机器人(插值外推)时仍然会失效。这提示我们,通用的物理理解需要足够广阔的“形态训练谱系”。
未来展望: QWM 为“机器人基础模型”铺平了道路。未来的进化方向可能是利用图神经网络(GNN)或 Transformer 来动态处理变结构的动力学树,从而让同一个世界模型能够同时控制两足、四足甚至机械臂。
