ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

[Preprint 2026] ManiTwin：10 万级仿真就绪数字孪生资源，打破机器人数据扩展瓶颈

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ManiTwin，一个自动化的大规模机器人操作数字孪生资源生成管线，并发布了包含 10 万个高质量 3D 资源的 ManiTwin-100K 数据集。该工作实现了从单张图像到具备语义标注、物理属性和碰撞验证的仿真就绪（Simulation-ready）资源的自动化转化，显著提升了机器人学习的数据规模。

TL;DR

在机器人操作领域，高质量的仿真环境资产一直是限制策略泛化的“窄门”。本文提出的 ManiTwin 建立了一套全自动化的数字孪生生成管线，仅需单张图片即可生成具备物理参数、功能语义和仿真验证的 3D 模型。利用该工具，作者构建了 ManiTwin-100K 数据集，提供了 10 万个可直接用于操作训练的资源，为机器人通用策略学习构筑了坚实的“数据粮仓”。

背景定位：从“几何多样性”迈向“操作就绪”

当前的 3D 资源库正处于一个尴尬的境地：Objaverse 等数据集虽然大，却只能看不能“玩”（缺乏物理属性和交互逻辑）；而像 YCB 这样能“玩”的，规模又太小（仅几十个物体）。

ManiTwin 的核心动机在于填补这两者之间的空白——构建一个既具备海量规模，又拥有严谨物理校验和丰富语义标注的机器人操纵中心化数据集。

核心方法论：ManiTwin 的三阶跃迁

ManiTwin 的管线分为：资产生成 (Asset Generation)、语义标注 (Asset Annotation) 与物理验证 (Verification)。

1. 资产生成：从 2D 到 3D 仿真就绪

管线首先利用生成模型（如 CLAY）从输入图像提取几何结构，并通过 VLM（Vision-Language Model）对多视图渲染图进行推理，估计物体的定向边界框（OBB）、质量、表面摩擦力等关键物理参数。

2. 语义标注：赋予物体“灵魂”

不同于传统的全自动抓取采样，ManiTwin 引入了 VLM 引导的深度标注：

Functional Points：识别物体的功能区（如水壶的嘴、刀的刃、按钮等）。
Grasp Proposals：利用 GraspGen 生成密集的抓取位姿，并根据 VLM 识别的语义点进行空间过滤。

模型架构图 Figure 1: ManiTwin 自动化管线概览

3. 物理验证：仿真器内的“终极炼金计划”

这是 ManiTwin 区别于其他生成工作的关键环节。每一个抓取候选位姿都会在 SAPIEN/PhysX 仿真器中进行严格测试：

稳定性验证：夹爪闭合后能否稳定提起物体而不滑落。
抗滑移测试：沿正交方向移动物体，确保位姿具有足够的鲁棒性。

实验与结果：10 万资产的震撼力量

ManiTwin-100K 统计特征

该数据集涵盖了从厨房用具到工业工具的 512 个类别，支持跨具身（Cross-Embodiment）的数据生成。这意味着同一个物体的标注可以同时驱动平行夹爪、灵巧手或自定义末端执行器。

质量评估

标注准确率：VLM 在类别分类上达到 100% 精度，在功能点识别上达到 92.2%。
抓取规模：累计产生 500 万个验证后的抓取位姿，生成的操纵轨迹长达 1000 万条。

实验结果对比 Figure 2: ManiTwin-100K 示例资产展示，从左至右依次为原图、生成模型、网格几何与抓取语义

深度洞察与总结

为什么 ManiTwin 如此重要？

ManiTwin 的出现预示着机器人学习正在进入“基础模型”时代。过去我们需要人工为每个任务编写代码或示教，而现在我们可以：

自动生成任务：根据 functional points 自动组合指令（如“拿起水壶把手并对准杯口”）。
VQA 数据生成：基于语义标注自动合成百万级的机器人视觉问答数据，训练具备推理能力的具身大模型。

局限性与未来

目前的资源仍集中在**刚性（Rigid）**物体，尚未触及具有关节的（Articulated，如抽屉）或可变形的（Deformable，如绳子）资产。此外，物理参数目前通过视觉推理而非真值测量。

总结：ManiTwin 为机器人社区提供了一个规模化解决 Assets Gap（资源鸿沟）的范式。通过自动化的“生成+验证”闭环，它让“为每一个机器人任务提供无限训练数据”的目标变得触手可及。

Find Similar Papers

Try Our Examples

查找最近其他结合大语言模型（LLM）或视觉语言模型（VLM）进行机器人仿真资产自动标注和生成的 SOTA 论文。
哪篇论文最早提出了利用仿真到现实（Sim-to-Real）转化技术来解决 3D 资源物理真实性的问题？本文如何在此基础上利用 VLM 改进物理参数估计？
除了 ManiTwin，目前有哪些最前沿的研究正在将这种自动化的 3D 物体生成管线扩展到具有关节（Articulated）或可变形（Deformable）物体的机器人操纵任务中？

Contents

[Preprint 2026] ManiTwin：10 万级仿真就绪数字孪生资源，打破机器人数据扩展瓶颈

1. TL;DR

2. 背景定位：从“几何多样性”迈向“操作就绪”

3. 核心方法论：ManiTwin 的三阶跃迁

3.1. 1. 资产生成：从 2D 到 3D 仿真就绪

3.2. 2. 语义标注：赋予物体“灵魂”

3.3. 3. 物理验证：仿真器内的“终极炼金计划”

4. 实验与结果：10 万资产的震撼力量

4.1. ManiTwin-100K 统计特征

4.2. 质量评估

5. 深度洞察与总结

5.1. 为什么 ManiTwin 如此重要？

5.2. 局限性与未来