DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

[CVPR 2026] DreamPartGen: 语义感知的零部件协作去噪，重塑 3D 生成的结构逻辑

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DreamPartGen，这是一个语义对齐的零部件级 3D 生成框架。该框架通过引入双向部件潜变量 (DPL) 和关系语义潜变量 (RSL)，结合同步协作去噪机制，在多个基准测试中实现了 SOTA 性能，显著提升了几何保真度（Chamfer Distance 降低 53%）和文本-形状对齐度（CLIP/ULIP 提升 20% 以上）。

TL;DR

传统的 Text-to-3D 模型往往会生成“一团乱麻”的几何体，虽然远看像个物体，但近看部件由于缺乏逻辑连接而四处漂移。DreamPartGen 改变了这一现状：它通过将物体分解为双向部件潜变量 (DPL)，并由关系语义潜变量 (RSL) 充当“粘合剂”和“指挥官”，在去噪过程中强制执行部件间的物理逻辑（如：椅子腿必须支撑坐垫）。结果是：几何误差直降 53%，文本对齐度提升 20%+。

背景：为什么 3D 生成总是“零件掉一地”？

目前的 SOTA 模型（如 Trellis, CLAY）在生成单体物体时表现惊人，但一旦面对复杂组合体，就会暴露短板：

语义缺失：模型不理解“把手”和“杯体”的连接逻辑。
空间漂移：车轮可能飘在底盘外，或者机翼与机身断裂。
控制匮乏：很难通过语言精确修改某个特定零件而不破坏整体。

作者的 Insight 在于：语言不仅仅是生成的条件，更应该是结构化的约束。 这促使了 PartRel3D 数据集的诞生——一个包含 300K 个功能和空间三元组（如 (seat, legs, support)）的大规模数据集。

核心方法：协作去噪 (Collaborative Denoising)

1. Duplex Part Latents (DPLs)

每个部件被表示为一个三元组：

3D Tokens：记录几何与空间结构。
2D Tokens：捕获颜色、纹理与材质。
Part Identifier：一个可学习的 ID 嵌入，确保在去噪的成百上千步中，零件的“身份”不会丢失（防止零件乱序或身份交换）。

2. Relational Semantic Latents (RSLs)

这是本文的灵魂。它分为两种：

全局关系 Token (Global)：作为持久的“规划者”，编码部件间的连接和对称逻辑。
局部语义 Token (Local)：作为“精修员”，随去噪过程演化，优化材质细节。

3. 同步机制

模型在每一步去噪中执行**Intra-Part（部件内）和Inter-Part（部件间）**的注意力同步。简单来说，部件在“自省”自己的几何外观是否匹配的同时，也在不断与邻居部件沟通，确保大家“挤”在正确的位置上。

模型架构图 图 1: DreamPartGen 整体架构：DPLs 与 RSLs 通过双向注意力层进行协作去噪。

实验战绩：全方位的碾压

在四个主流 3D 基准测试（Objaverse, ShapeNet, ABO, PartRel3D）中，DreamPartGen 在 Chamfer Distance (CD) 这一核心指标上甚至达到了前作的 2-3 倍提升。

实验结果对比 表 1: 几何精确度对比。注意 DreamPartGen 在所有数据集上的 CD 值均显著低于基线。

视觉定性分析

对比基线（如 PartCrafter），DreamPartGen 生成的 3D 模型具有极高的水密性（Watertight）。基线模型经常出现的表面撕裂、空洞、零件悬浮等问题，在 DreamPartGen 中得到了很好的解决。

定性对比图 图 2: 可视化对比。注意轮子、头部和肢体连接处的稳定性。

深度洞察：如果不给关系约束会怎样？

在消融实验中，作者移除全局关系 Token ($S_{glb}$) 后，Chamfer Distance 飙升了 275%。这说明：单纯靠 3D/2D 特征相互吸引，不足以维持复杂的 3D 拓扑结构。“关系语义”是 3D 生成从“概率拼凑”走向“逻辑构建”的必经之路。

行业启示与未来

DreamPartGen 不仅仅能生成单体物体，还能：

局部编辑：冻结其他部件，只重新去噪特定的部件（如给角色加个头饰）。
场景生成：将物体视为“宏观零件”，生成逻辑严密的微缩场景。
关节动画：由于其天然的部件解耦特性，生成的模型非常容易适配骨骼动画。

总结 (Takeaway)：这篇文章标志着 Text-to-3D 步入“深水区”——研究者开始关注物体内在的功能连接而非仅仅是表面的视觉相似性。其提出的 PartRel3D 数据集和 RSL 机制，对未来的数字孪生维护、机器人灵巧操作环境生成具有极高的参考价值。

Find Similar Papers

Try Our Examples

查找最近其他试图解决 3D 生成中零部件空间关系对齐和结构一致性问题的论文。
哪篇论文最早提出了 3D 结构化潜变量（Structured 3D Latents），本文在同步去噪机制上做了哪些核心改进？
有哪些研究将类似 DreamPartGen 的零部件级建模平衡应用到了大规模具身智能（Embodied AI）或机器人操作任务的仿真环境中？

Contents

[CVPR 2026] DreamPartGen: 语义感知的零部件协作去噪，重塑 3D 生成的结构逻辑

1. TL;DR

2. 背景：为什么 3D 生成总是“零件掉一地”？

3. 核心方法：协作去噪 (Collaborative Denoising)

3.1. 1. Duplex Part Latents (DPLs)

3.2. 2. Relational Semantic Latents (RSLs)

3.3. 3. 同步机制

4. 实验战绩：全方位的碾压

4.1. 视觉定性分析

5. 深度洞察：如果不给关系约束会怎样？

6. 行业启示与未来