本文推出了 SOFTMIMICGEN,一个针对柔性物体操纵(Deformable Object Manipulation)的自动数据生成系统。该系统基于非刚性配准(Non-rigid Registration)技术,仅需 1-10 条人类演示即可自动合成数千条高质量机器人轨迹,并在人形机器人、手术机器人等多种形态上实现了复杂任务的 SOTA 性能。
TL;DR
机器人领域一直存在一个“硬伤”:刚体任务好做,柔性任务难搞。传统的数据采集靠人工,成本极高。SOFTMIMICGEN 的出现改变了游戏规则,它利用**非刚性配准(Non-rigid Registration)**技术,将区区几条人类演示“变幻”出成千上万条适应于不同场景、不同形状的柔性物体操纵数据。它不仅支持单臂、双臂,甚至能直接驱动人形机器人和手术机器人。
1. 痛点:为什么“以柔克刚”这么难?
在大规模机器人学习中,数据就是燃料。对于刚体(如方块、杯子),我们可以轻松定义一个坐标系。当杯子移动了,我们只需做一个简单的 SE(3) 刚体变换(平移+旋转),就能让机器人复现动作。
但是,当你面对一条毛巾、一根绳子或一个玩偶时,问题接踵而至:
- 无固定基准:毛巾揉皱了,它的“中心”在哪?
- 非线性形变:拉动绳子的一头,另一头的运动不是简单的线性跟随。
- 高维状态:柔性物体的状态需要成百上千个节点来描述,传统的刚体变换完全无法处理这种拓扑保持的扭曲。

2. 核心机制:让轨迹“随物而动”
SOFTMIMICGEN 的核心在于将任务拆解为物体中心的子任务,并引入了非刚性配准作为桥梁。
2.1 非刚性配准 (Non-Rigid Registration)
系统不再寻找单一的旋转矩阵,而是寻找一个连续映射函数 $f: \mathbb{R}^3 o \mathbb{R}^3$。这个函数能把源场景(Source)中物体的点云“揉”成目标场景(Target)中物体的样子。
2.2 轨迹扭曲 (Warp Trajectory)
当物体发生形变时,机器人的末端执行器(EE)轨迹也必须随之扭曲。SOFTMIMICGEN 不仅移动轨迹点的位置,还利用 $f$ 的**雅可比矩阵(Jacobian)**来重新定向末端执行器的姿态(Rotation),确保抓取夹具相对于物体表面的局部几何关系保持一致: $$ p_t \rightarrow f( p_t ), \quad R_t \rightarrow ext{orth}( \mathbf{J}_f( p_t ) R_t ) $$ 这种做法在物理直觉上非常合理:如果物体表面发生了拉伸和扭转,机器人的手也应该顺着这种微小的局部坐标系变化进行修正。
3. 实验验证:从模拟器走向真实世界
作者构建了一套高保真的仿真环境,涵盖了从“人形机器人抱玩偶”到“手术机器人穿线”等 10 种极具挑战性的任务。

关键数据战绩:
- 性能爆炸:在 Franka 绳索操纵中,相比上一代 MIMICGEN 系统,成功率从 8% 狂飙至 98%。
- 规模化力量:实验证明,随着自动生成的数据量从 50 增加到 1000 条,策略的成功率呈现明显的上升趋势(如 Jenga 塔任务提升了 30%+)。
- Sim-to-Real 的跨越:在无需真实数据的情况下(Zero-shot),模型在真实世界中折叠毛巾的成功率达到 70%。

4. 深度洞察
SOFTMIMICGEN 的意义不仅在于“生成了数据”,而在于它展示了一种**几何先验(Geometric Prior)如何与模仿学习(Imitation Learning)**结合。
以往的方法要么死磕复杂的物理建模(物理引擎太慢),要么依赖纯粹的暴力采样(效率太低)。SOFTMIMICGEN 通过非刚性配准,实际上提取了人类演示中的“操纵意图”并将其映射到了流形空间。这使得它不仅能处理柔性物体,甚至在处理几何形状差异巨大的刚体任务(如不同尺寸的方块堆叠)时,也比传统方法更具鲁棒性。
5. 局限与展望
尽管表现强悍,但 SOFTMIMICGEN 目前仍假设任务具有特定的子任务结构(Subtask structure)。对于那些非结构化的、需要多次尝试或条件跳转的复杂任务(如解开乱成一团的毛线),系统还需要引入更高层的逻辑判断。
总结:如果你正在为机器人柔性操纵的数据短缺而发愁,SOFTMIMICGEN 提供了一条通往高效、低成本自动化生成的康庄大道。
