Cross-Hand Latent Representation for Vision-Language-Action Models

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Cross-Hand Latent Representation for Vision-Language-Action Models

[CVPR 2025] XL-VLA：打破构型壁垒，赋予灵巧手统一的“运动灵魂”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 XL-VLA，一种集成统一隐性动作空间（Latent Action Space）的视觉-语言-动作模型。该方法通过跨机器人构型（Cross-embodiment）的对齐，实现了在多种异构灵巧手（Dexterous Hands）上的通用水准，并显著提升了复杂操作任务的成功率。

TL;DR

在机器人学领域，灵巧操作（Dexterous Manipulation）一直被视为“圣杯”。挑战在于：每增加一种新的灵巧手硬件，往往意味着由于关节定义和自由度（DoF）的不同，之前的训练数据几乎作废。XL-VLA (Cross-Hand Latent VLA) 提出了一种优雅的解决方案——通过预训练一个构型无关的隐性动作空间，让模型学习如何“跨手”思考。实验表明，该模型在 10 项复杂任务中不仅刷新了 SOTA，更实现了令人惊叹的 Zero-shot 跨硬件泛化。

痛点深挖：动作空间的“巴别塔”

大规模预训练模型（如 GPT）之所以成功，是因为语言有统一的词表。但机器人领域不同：

形态差异：Ability 手有 5 指 12 自由度，而 Paxini 手只有 4 指。直接在关节空间（Raw Joint Space）训练会面临输入输出维度不一致的问题。
数据孤岛：由于硬件差异，为 A 机器人采集的视觉-动作轨迹很难直接教给 B 机器人。
扩展性极差：每次硬件迭代都要重新开始，这显然不符合具身智能走向 Scaling Law 的愿景。

核心直觉：寻找运动的“共性流形”

尽管不同灵巧手的外形各异，但完成同一动作（如：捏起盐罐）的语义目标和末端几何关系是相似的。XL-VLA 的核心贡献在于预训练了一套针对不同手的 Encoder ( $E_{h}$ ) 和 Decoder ( $D_{h}$ )，将它们全部映射到一个压缩的、正态化的隐空间 $z$ 。

1. 模型架构解析

XL-VLA 采用了 π0（一种基于流匹配的 V6 建模方式）作为骨干体系。不同之处在于，它不再输入原始关节状态 $q$ ，而是输入经过编码的隐性 Token $z$ 。

模型架构图 图 1：XL-VLA 整体管线。VLA Policy 在隐空间内根据视觉和语言指令预测下一组隐性动作块。

2. 三重约束下的无监督对齐

如何确保不同手的 $z$ 具有相同含义？作者提出了三合一损失函数：

$L_{1}$ 重构损失：保证基础的编解码精度。
$L_{2}$ 几何对齐（关键）：通过微分正向运动学（FK），强迫不同手在相同的 $z$ 下产生的指尖相对距离和方向一致。例如，当 $z$ 代表“捏合”时，所有手必须同时表现出指尖靠近。
$L_{3}$ KL 散度：确保隐空间的平滑性和连续性。

图 2：隐空间预训练流程，注意其通过 FK 实现了跨构型的自我监督。

实验战绩：全线领先

研究团队在 xArm 機械臂和 Unitree G1 仿人机器人上进行了多维评估。

跨构型性能突破

在混合数据集训练下，XL-VLA 在所有任务上的平均表现远超原始 π0。特别是在“递送瓶子 (HB)”等高度依赖协同的任务中，成功率提升幅度高达 55% 以上。

实验结果表格 表 1：XL-VLA 与基准模型在 4 种硬件及 10 项任务上的成功率对比。

Zero-shot 泛化能力

这是最令人兴奋的部分：科研人员尝试将模型从未在 A 手上见过的任务“搬移”过去。由于隐空间已经学到了运动的本质，模型无需任何微调即可直接执行新任务，表现优于传统的手动重定向（Kinematic Retargeting）方法。

零样本泛化 图 3：Zero-shot 泛化实验。可以看到灵巧手在处理精细动作时，隐性空间的对齐起到了关键作用。

深度洞察与总结

XL-VLA 实际上是在寻找一种**“机器人操作的中间语言”**。

本质提升：它将机器人形态学（Morphology）与智能逻辑解耦。这意味着未来的硬件公司只需提供一个对应的 Encoder/Decoder 插件（Plug-and-play），就能立刻接入最强的 VLA 控制模型。
局限性：目前的 $L_{2}$ 对齐主要依赖指尖几何，对于涉及整个手掌或复杂接触力的任务，可能需要更复杂的多模态对齐（如触觉）。

随着仿人机器人硬件的爆发式增长，这类“跨构型适配”的技术将成为推动具身大模型真正落地的核心动力。

Find Similar Papers

Try Our Examples

查找最近一年内其他利用隐性动作空间（Latent Action Space）解决机器人跨构型操控问题的顶会论文。
哪篇论文最早在 VLA 模型中引入了 Action Chunking 或动作序列预测的概念，本文在此基础上做了哪些结构性改进？
调研当前除了微分正向运动学对齐之外，还有哪些方法可以实现不同形态机器人灵巧手之间的语义动作对齐？

Contents

[CVPR 2025] XL-VLA：打破构型壁垒，赋予灵巧手统一的“运动灵魂”

1. TL;DR

2. 痛点深挖：动作空间的“巴别塔”

3. 核心直觉：寻找运动的“共性流形”

3.1. 1. 模型架构解析

3.2. 2. 三重约束下的无监督对齐

4. 实验战绩：全线领先

4.1. 跨构型性能突破

4.2. Zero-shot 泛化能力

5. 深度洞察与总结