本文提出了 SpaceDex,一个专为分层受限空间(如货架、柜子)设计的灵巧手抓取框架。该方法结合了视觉语言模型 (VLM) 规划与基于扩散策略 (Diffusion Policy) 的底层控制,在处理遮挡和物理空间约束方面达到了 SOTA 水平。
TL;DR
在开放桌面上抓取瓶水很容易,但在塞满东西的冰箱深处抓取一个梨则难如登天。SpaceDex 是一套全新的层级化 VLA(Vision-Language-Action)框架,它通过 VLM 的多视角推理和“臂-手特征分离”技术,首次让 15 个自由度的灵巧手在狭窄、有遮挡的货架空间内实现了高成功率(63%)的通用抓取。
背景定位
目前大多数灵巧操作的研究都处于“无忧无虑”的实验阶段——目标物放在空旷平面的正中央,机械臂可以随意挥舞。然而,工业仓储和家庭服务的真实场景往往是分层、狭窄、且充满遮挡的。SpaceDex 的出现,标志着灵巧操作正从“视觉对齐”转向“空间感知与受限规划”。
痛点深挖:为什么货架抓取这么难?
- 单视角盲区:在货架中,机械臂自身或货架框架常会挡住主摄像头。
- 特征干扰 (Feature Interference):如果用同一个神经网络特征既控制“大手臂”避开架子,又控制“小手指”接触物体,强烈的位移信号往往会掩盖精细的角度调整。
- 视觉失效:当手部接近物体时,视觉不再可靠,此时缺乏触觉感知的策略极易导致物体滑脱。
核心方法:层级化空间规划
1. 具有“层级意识”的高层规划器
SpaceDex 调用了多个视角的相机(左、前、右),配合 VLM (Qwen2.5-VL) 进行并行查询。模型会判断哪一个视角的置信度最高(避开了遮挡),并生成目标物体的 Bounding Box,随后通过 SAM 进行分割和实时 Mask 跟踪。

2. 臂-手特征分离网络 (The Core)
这是本文最具启发性的改进。作者在 DiT (Diffusion Transformer) 主干网络中强行拆分了两个流:
- Arm Stream:负责全局 3D 空间内的避障导航。
- Hand Stream:专注于局部几何匹配和接触力优化。
这种设计避免了宏观运动信号对微观操作信号的“特征压制”。

3. 多模态触觉闭环
在该框架中,指尖的触觉不再是摆设,而是被简化为 5 维力强度向量,强制嵌入到扩散策略的 Condition 空间中。这使得机器人在视觉被完全遮挡的情况下,依然能根据指尖传来的压力实时修正抓取姿态。
实验与结果:硬碰硬的实战
研究团队在包含刚体、圆柱体、球体、易变形物体四种类型的 30 多种物体上进行了测试。相比于目前主流的基线模型 DexGraspVLA,SpaceDex 展现了碾压式的优势。

- 球面物体提升最显著(成功率从 52% 提升到 84%),这归功于触觉反馈对滑移的补偿。
- 消融实验显示:去掉“臂-手分离”网络,成功率骤降 19%,直接证明了对复杂自由度进行运动学解耦的必要性。
深度洞察:未来的启示
SpaceDex 成功的核心逻辑在于**“术业有专攻”。 在端到端(End-to-End)大行其道的今天,本文冷静地指出了单纯堆算力是不够的。对于高自由度(22-DoF)的系统,在物理结构上进行合理的归纳偏置(Inductive Bias)**——例如将全局路径规划与局部操作解耦——能显著降低学习难度。
局限性: 尽管表现出色,但在处理高度透明或极小的物体时,目前的视觉+触觉链路仍有波动。此外,VLM 的推理延迟在实时动态避障中依然是一个潜在瓶颈。
总结
SpaceDex 为灵巧手在物流、家政等复杂 3D 环境的应用铺平了道路。它告诉我们:真正智能的机器人,不仅要能“看懂”目标,更要能“理清”自己与复杂环境的几何关系。
