本文提出了 PhysForge,一个旨在生成具有物理属性且可交互的 3D 资产的解耦两阶段框架。该框架结合了 VLM 的物理规划能力与扩散模型的精确合成能力,在 PhysDB 大型数据集的支持下,实现了从单张图片生成具备层级物理标注和运动学参数的 SOTA 级别 3D 模型。
TL;DR
在 3D 内容生成(AIGC-3D)领域,我们已经能生成非常逼真的几何形状和纹理,但这些模型大多是“死”的——它们没有物理属性,无法在模拟器中被推开或拆解。PhysForge 通过创新的“VLM 物理规划 + 扩散模型实现”两阶段框架,配合包含 15 万资产的 PhysDB 数据集,首次实现了从单图直接生成具备精确运动学参数(Kinematics)和物理功能属性(如材质、质量、状态机)的 3D 资产。
痛点深挖:为何生成的 3D 模型都是“空壳”?
当前的 SOTA 模型(如 TRELLIS, DreamFusion 等)在生成静态物体上已经达到了工业级水准。然而,当你试图将一个生成的“橱柜”放入具身智能机器人模拟器时,问题出现了:
- 缺乏结构逻辑:模型是一个整体的 Mesh,柜门打不开。
- 物理属性缺失:不知道柜门是木质的还是玻璃的,不知道它受力后会如何转动。
- 交互断层:缺乏运动轴(Joint Axis)和限位(Limits)信息,导致无法进行物理仿真。
作者认为,3D 资产的生成必须根植于功能逻辑和层级物理。柜门之所以存在,是因为它具有“开启/关闭”的功能逻辑,而其几何形状只是功能的承载。
方法论详解:PhysForge 的“物理炼金术”
PhysForge 将生成过程解耦为两个阶段:规划(Planning)与实现(Realization)。
1. VLM 作为“物理建筑师”
第一阶段,作者微调了 Qwen2.5-VL。它不仅观察图片,还要结合初步的 3D 空间理解。模型会输出一份 “层级物理蓝图”(Hierarchical Physical Blueprint)。
- 层级化标注:从全局缩放(Scale)到部位级的材质(Material)、功能(Function)以及原子级交互行为(Affordance)。
- 协同效应:实验发现,让 VLM 预测物理属性反而能增强它对部位分割(Part Segmentation)的理解,这种语义约束由于纯几何的分割。
2. 扩散模型与 KineVoxel Injection (KVI)
在第二阶段,如何让扩散模型同时生成“精细的像素”和“精确的物理参数”?作者提出了 KineVoxel Injection (KVI)。
- 运动体素化:将 joint 的原点、轴向和限位编码为浮动向量。
- 同步去噪:将这种特殊的“运动体素”注入到几何体素(Geometry Voxel)的 Latent Space 中,在 Transformer 模块中进行共同演化。这样,几何形状的变化会直接影响运动轴的定位,反之亦然。
图 2: PhysForge 两阶段架构。左侧为基于 VLM 的物理蓝图规划,右侧为结合 KVI 的扩散生成阶段。
实验与结果:让 3D 资产真正“动起来”
PhysForge 在多个维度上刷新了记录:
- 规划能力:即便在没有 2D 掩码(Mask)引导的情况下,其部位规划的准确度(BBox IoU)仍优于之前的 OmniPart。
- 物理精度:在 PhysXNet 测试集上,其绝对尺寸误差(Absolute scale)仅为其他方法的 1/3。
- 运动学参数:在关节轴预测精度上显著领先,使得模型可以直接放入 RoboTwin 等模拟器中给机器人做训练。
图 4: 关节物体生成效果。不仅形状完美还原,旋转轴和运动类型也极其精确。
深度洞察与总结
PhysForge 的核心贡献不仅在于算法,更在于对“什么是好的 3D 资产”的定义。 它引入的 PhysDB 数据集涵盖了 15 万个四层级物理标注的资产,填补了行业空白。
- 总结:PhysForge 成功将 VLM 的世界知识与生成模型的精细控制相结合,完成了从静态形状到动态功能的跃迁。
- 局限性:目前主要针对具有明确运动学关节的刚性/半刚性物体(如电器、家具),对于柔性体或极度复杂的流体交互尚有探索空间。
- 未来展望:随着具身智能需求的爆发,这种“自带说明书”的 3D 资产生成技术将成为构建通用人工智能(AGI)虚拟训练场的核心基础设施。
图 6: 下游应用展示。从机器人操纵到游戏引擎中的即时交互,PhysForge 展示了极高的工业应用价值。
