本文推出了 SIM1,这是首个面向可变形物体操作的物理对齐“实对虚对实”(R2S2R)数据引擎。通过高精度场景数字化、变形稳定的 AVBD 物理求解器以及扩散驱动的动作生成,SIM1 实现了在纯仿真数据上训练模型,并在真实机器人(ARX ACONE)的抓取与折叠任务中达成 90% 的零样本(Zero-shot)成功率。
TL;DR
在机器人具身智能(Embodied AI)领域,可变形物体(如衣服、毛巾)的操作一直是“数据荒漠”。上海 AI Lab 等机构的研究者提出了 SIM1,一套物理对齐的 R2S2R 数据引擎。它能够将极少量的真实演示转化为海量高保真合成轨迹。核心成就:完全使用 SIM1 生成的合成数据训练,机械臂在真实世界折叠 T 恤的零样本成功率高达 90%,且成本仅为人工采集的 1/27。
1. 为什么“仿真”在软体面前失效了?
传统的 Sim-to-Real (S2R) 路线在刚体(如积木、杯子)上很成功,但在处理布料时会迅速崩溃:
- 几何不一致:手绘或粗糙建模的衣服模型缺乏真实纹理和物理尺度。
- 动力学“诡异”:普通的物理求解器(如 VBD 或 PBD)在机械臂抓取布料猛烈拖拽时,会出现严重的过度拉伸(布料像拉面一样长)或穿模。
- 动作机械:简单的 Pick-and-place 无法应对布料复杂的拓扑变化。
作者指出:仿真失败不是因为它是合成的,而是因为它没有“锚定”物理现实。
2. SIM1 的核心架构:三位一体的对齐
SIM1 采用 Real-to-Sim-to-Real (R2S2R) 范式,在三个维度上进行极致对齐。

2.1 几何与场景对齐 (SIM1-Scene)
研究团队放弃了手动建模,而是使用专业级 3D 扫描仪(EinScan)对真实衣物进行数字化。通过泊松重建,生成具有亚毫米精度的纹理模型。
2.2 动力学对齐 (SIM1-Sim)
这是 SIM1 的技术堡垒。为了解决“拉面效应”,作者引入了 Augmented Vertex Block Descent (AVBD) 求解器。
- 应变约束 (Strain Constraint):当布料边缘拉伸超过 5% 时,系统会自动激活虚拟弹性约束,注入校正力。
- 双向同步:通过将真实机械臂的关节状态实时映射到仿真“双胞胎”中,利用视觉反馈迭代校准物理参数(杨氏模量、摩擦力等)。

2.3 运动对齐 (SIM1-DataGen)
生成数据时,SIM1 不仅仅是随机扰动。它采用了“解耦-再合成”策略:
- 轨迹分解:将专家演示分为“交互段”和“移动段”。
- 扩散生成:利用条件扩散模型(Conditional Diffusion Forcing)在两个交互点之间生成平滑、类人的过渡轨迹。
- 有效性过滤:训练一个视频判别器,自动剔除掉那些虽然物理符合规律但“动作多余”的废片。
3. 实验战绩:1:15 的等效神话
在最具挑战性的 T-shirt 翻转与折叠 任务中,SIM1 展现了惊人的 Scaling Law。
- Zero-shot 能力:通过大量的外观随机化(更换 17 种桌子纹理、28 种衣服材质),模型在遇到从未见过的 Polo 衫时,依然保持了 70% 的成功率,而真实数据训练的 Baseline 仅有 20%。
- 数据等效性:分析发现,15 条 SIM1 合成数据产生的训练增益约等于 1 条昂贵的真实演示。考虑到成本差异,这种“以量补质”的策略在商业落地上极具诱惑力。

4. 深度洞察:数据规模化的新路径
SIM1 的意义在于,它打破了“仿真数据只能用于 Pre-train”的魔咒。
- 消融实验证明:单纯增加数据量(+Traj. decomposition)若无稳定的物理求解器支持,成功率几乎为零。这验证了高保真物理仿真是可变形物体操作的“入场券”。
- 局限性:目前材料参数仍需专家辅助校准。未来结合大模型的自动化参数估计(System Identification)将是下一个热点。
结论
SIM1 为具身智能提供了一个可扩展的、低成本的真理来源。它告诉我们:与其在真实世界死磕昂贵的数据采集,不如在虚拟世界里构建一个足够真实、足够稳定的“物理镜像”。
