WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[CVPR 2025] XL-VLA:打破构型壁垒,赋予灵巧手统一的“运动灵魂”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 XL-VLA,一种集成统一隐性动作空间(Latent Action Space)的视觉-语言-动作模型。该方法通过跨机器人构型(Cross-embodiment)的对齐,实现了在多种异构灵巧手(Dexterous Hands)上的通用水准,并显著提升了复杂操作任务的成功率。

TL;DR

在机器人学领域,灵巧操作(Dexterous Manipulation)一直被视为“圣杯”。挑战在于:每增加一种新的灵巧手硬件,往往意味着由于关节定义和自由度(DoF)的不同,之前的训练数据几乎作废。XL-VLA (Cross-Hand Latent VLA) 提出了一种优雅的解决方案——通过预训练一个构型无关的隐性动作空间,让模型学习如何“跨手”思考。实验表明,该模型在 10 项复杂任务中不仅刷新了 SOTA,更实现了令人惊叹的 Zero-shot 跨硬件泛化。

痛点深挖:动作空间的“巴别塔”

大规模预训练模型(如 GPT)之所以成功,是因为语言有统一的词表。但机器人领域不同:

  1. 形态差异:Ability 手有 5 指 12 自由度,而 Paxini 手只有 4 指。直接在关节空间(Raw Joint Space)训练会面临输入输出维度不一致的问题。
  2. 数据孤岛:由于硬件差异,为 A 机器人采集的视觉-动作轨迹很难直接教给 B 机器人。
  3. 扩展性极差:每次硬件迭代都要重新开始,这显然不符合具身智能走向 Scaling Law 的愿景。

核心直觉:寻找运动的“共性流形”

尽管不同灵巧手的外形各异,但完成同一动作(如:捏起盐罐)的语义目标末端几何关系是相似的。XL-VLA 的核心贡献在于预训练了一套针对不同手的 Encoder () 和 Decoder (),将它们全部映射到一个压缩的、正态化的隐空间

1. 模型架构解析

XL-VLA 采用了 π0(一种基于流匹配的 V6 建模方式)作为骨干体系。不同之处在于,它不再输入原始关节状态 ,而是输入经过编码的隐性 Token

模型架构图 图 1:XL-VLA 整体管线。VLA Policy 在隐空间内根据视觉和语言指令预测下一组隐性动作块。

2. 三重约束下的无监督对齐

如何确保不同手的 具有相同含义?作者提出了三合一损失函数:

  • 重构损失:保证基础的编解码精度。
  • 几何对齐(关键):通过微分正向运动学(FK),强迫不同手在相同的 下产生的指尖相对距离和方向一致。例如,当 代表“捏合”时,所有手必须同时表现出指尖靠近。
  • KL 散度:确保隐空间的平滑性和连续性。

隐空间预训练流程 图 2:隐空间预训练流程,注意其通过 FK 实现了跨构型的自我监督。

实验战绩:全线领先

研究团队在 xArm 機械臂和 Unitree G1 仿人机器人上进行了多维评估。

跨构型性能突破

在混合数据集训练下,XL-VLA 在所有任务上的平均表现远超原始 π0。特别是在“递送瓶子 (HB)”等高度依赖协同的任务中,成功率提升幅度高达 55% 以上。

实验结果表格 表 1:XL-VLA 与基准模型在 4 种硬件及 10 项任务上的成功率对比。

Zero-shot 泛化能力

这是最令人兴奋的部分:科研人员尝试将模型从未在 A 手上见过的任务“搬移”过去。由于隐空间已经学到了运动的本质,模型无需任何微调即可直接执行新任务,表现优于传统的手动重定向(Kinematic Retargeting)方法。

零样本泛化 图 3:Zero-shot 泛化实验。可以看到灵巧手在处理精细动作时,隐性空间的对齐起到了关键作用。

深度洞察与总结

XL-VLA 实际上是在寻找一种**“机器人操作的中间语言”**。

  • 本质提升:它将机器人形态学(Morphology)与智能逻辑解耦。这意味着未来的硬件公司只需提供一个对应的 Encoder/Decoder 插件(Plug-and-play),就能立刻接入最强的 VLA 控制模型。
  • 局限性:目前的 对齐主要依赖指尖几何,对于涉及整个手掌或复杂接触力的任务,可能需要更复杂的多模态对齐(如触觉)。

随着仿人机器人硬件的爆发式增长,这类“跨构型适配”的技术将成为推动具身大模型真正落地的核心动力。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他利用隐性动作空间(Latent Action Space)解决机器人跨构型操控问题的顶会论文。
  • 哪篇论文最早在 VLA 模型中引入了 Action Chunking 或动作序列预测的概念,本文在此基础上做了哪些结构性改进?
  • 调研当前除了微分正向运动学对齐之外,还有哪些方法可以实现不同形态机器人灵巧手之间的语义动作对齐?
Contents
[CVPR 2025] XL-VLA:打破构型壁垒,赋予灵巧手统一的“运动灵魂”
1. TL;DR
2. 痛点深挖:动作空间的“巴别塔”
3. 核心直觉:寻找运动的“共性流形”
3.1. 1. 模型架构解析
3.2. 2. 三重约束下的无监督对齐
4. 实验战绩:全线领先
4.1. 跨构型性能突破
4.2. Zero-shot 泛化能力
5. 深度洞察与总结