WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
DiLAST:唤醒 3D 潜空间,2D 扩散模型指导下的万能风格迁移
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 DiLAST,一种名为“2D 扩散驱动的潜空间唤醒”的 3D 风格迁移框架。该方法通过 2D Diffusion 模型的注意力蒸馏(Attention Distillation)指导 3D 生成模型(如 Trellis)中结构化潜变量(Structured 3D Latents)的去噪轨迹,实现了针对分布外(OOD)艺术风格的高泛化性 3D 资产生成。

TL;DR

在 3D 资产生成领域,如何让模型“听话地”变换风格一直是个难题。本文提出的 DiLAST 揭示了一个令人惊讶的结论:现有的 3D 生成模型其实“潜力无限”,只是缺乏引导。通过引入成熟的 2D Latent Diffusion Model (LDM) 作为导师,DiLAST 能够在不改动底层 3D 模型的情况下,通过优化 Structured 3D Latents,将任何天马行空的 OOD(分布外)艺术风格完美融入 3D 模型中。

背景定位:3D 生成的“舒适区”与“壁垒”

当前的 3D 生成模型(如 Trellis, Hunyuan3D 2.0)虽然能生成高质量几何体,但在风格控制上显得非常局促。

  • 痛点:如果你给模型一张训练集里没见过的毕加索抽象画,模型往往会“懵掉”,生成的 3D 模型要么几何崩坏,要么颜色脏乱。
  • 本质原因:3D 训练数据量远小于 2D,导致 3D 模型的潜空间(Latent Space)只学会了规整的物体,而没见过多样的艺术表达。

核心直觉:潜空间的“唤醒”

作者认为,3D 模型的潜空间其实足够深邃,可以容纳各种风格。之所以表现不好,是因为其默认的去噪轨迹(Denoising Trajectory)只会通往平庸的结局。

DiLAST 的方案是:借调一个在海量数据上训练过的 2D LDM (如 Stable Diffusion)。由于 2D LDM 见过世界上几乎所有的艺术风格,它能一眼看出渲染出来的 3D 视图“够不够艺术”。

技术详解:DiLAST 管道 (Pipeline)

DiLAST 的工作流程可以概括为以下三个关键步骤:

1. 三分支注意力蒸馏 (Three-branch Attention Distillation)

这是 DiLAST 的核心。它在 2D LDM 中同时运行三个分支:

  • Content Branch: 锁定原始物体的几何结构。
  • Style Branch: 提取风格图的特征。
  • Optimization Branch: 待优化的 3D 渲染图。

模型计算这三个分支在 LDM 内部的 Self-Attention Map 的差异。通过 损失,强迫 3D 视图的注意力关联向风格图对齐,同时通过 保持内容查询项(Query)的一致。

DiLAST 流程图 图 1:DiLAST 架构图。可以看到 2D 教师模型如何通过梯度回传(Gradient Backprop)来修正 3D 潜变量的去噪方向。

2. 差分渲染与 3DGS 结合

DiLAST 使用 3D Gaussian Splatting (3DGS) 作为解码后端。3DGS 的优势在于渲染极快且全程可微,这使得从 2D 像素返回给 3D 潜变量的梯度路径非常通畅。

3. 多重正则化:告别“浮游物”与“颜色溢出”

为了让生成的 3D 模型在物理上更合理,作者引入了:

  • Floater Removal ():防止空气中出现莫名其妙的半透明碎片。
  • Color Speckle Suppression ():利用空间平滑性,防止颜色出现高饱和度的奇异斑点。

实验战绩:全方位碾压

在与 MorphAny3D 等 SOTA 方法的对比中,DiLAST 表现出了压倒性的优势。

  • 风格准确度:在处理像霓虹赛博、日式浮世绘或立体派折纸等风格时,DiLAST 能够完美捕捉到笔触和材质感。
  • 即插即用:该方法不仅适用于 Trellis,将其直接套用在 UniLat3D 或 Hunyuan3D 上依然能产生惊艳的结果。

实验结果对比 图 2:与 MorphAny3D 和 StyleSculptor 的视觉对比。可以看到其他方法在处理风格时要么导致严重的结构变形,要么风格化强度极弱。

总结与思考

DiLAST 的成功再次印证了 Foundation Model(大底座模型)在跨模态任务中的主导地位。它告诉我们:与其费力去训练一个万能的 3D 模型,不如学会如何挖掘现有模型潜空间中的“宝藏”。

局限性:由于涉及测试时优化,DiLAST 的每一步生成都需要多次迭代,这对实时性有一定影响。此外,2D 指导可能会在某些极端视角下产生 multi-view 不一致的微小假象(虽已被 3DGS 缓解)。

未来展望:这种“潜空间唤醒”的思路或许可以扩展到 3D 场景编辑、动作捕捉后的风格化同步等更广阔的创作领域。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用 2D 扩散模型作为指导项进行 3D 场景编辑或风格迁移的论文。
  • 哪篇论文最早提出了结构化 3D 潜变量 (Structured 3D Latents) 的概念,本文是如何在 Trellis 架构基础上进行优化的?
  • 有哪些研究探讨了将 2D 注意力蒸馏 (Attention Distillation) 技术应用到视频生成或 4D 动态场景风格迁移中?
Contents
DiLAST:唤醒 3D 潜空间,2D 扩散模型指导下的万能风格迁移
1. TL;DR
2. 背景定位:3D 生成的“舒适区”与“壁垒”
3. 核心直觉:潜空间的“唤醒”
4. 技术详解:DiLAST 管道 (Pipeline)
4.1. 1. 三分支注意力蒸馏 (Three-branch Attention Distillation)
4.2. 2. 差分渲染与 3DGS 结合
4.3. 3. 多重正则化:告别“浮游物”与“颜色溢出”
5. 实验战绩:全方位碾压
6. 总结与思考