Structured 3D Latents Are Surprisingly Powerful: Unleashing Generalizable Style with 2D Diffusion

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Structured 3D Latents Are Surprisingly Powerful: Unleashing Generalizable Style with 2D Diffusion

DiLAST：唤醒 3D 潜空间，2D 扩散模型指导下的万能风格迁移

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DiLAST，一种名为“2D 扩散驱动的潜空间唤醒”的 3D 风格迁移框架。该方法通过 2D Diffusion 模型的注意力蒸馏（Attention Distillation）指导 3D 生成模型（如 Trellis）中结构化潜变量（Structured 3D Latents）的去噪轨迹，实现了针对分布外（OOD）艺术风格的高泛化性 3D 资产生成。

TL;DR

在 3D 资产生成领域，如何让模型“听话地”变换风格一直是个难题。本文提出的 DiLAST 揭示了一个令人惊讶的结论：现有的 3D 生成模型其实“潜力无限”，只是缺乏引导。通过引入成熟的 2D Latent Diffusion Model (LDM) 作为导师，DiLAST 能够在不改动底层 3D 模型的情况下，通过优化 Structured 3D Latents，将任何天马行空的 OOD（分布外）艺术风格完美融入 3D 模型中。

背景定位：3D 生成的“舒适区”与“壁垒”

当前的 3D 生成模型（如 Trellis, Hunyuan3D 2.0）虽然能生成高质量几何体，但在风格控制上显得非常局促。

痛点：如果你给模型一张训练集里没见过的毕加索抽象画，模型往往会“懵掉”，生成的 3D 模型要么几何崩坏，要么颜色脏乱。
本质原因：3D 训练数据量远小于 2D，导致 3D 模型的潜空间（Latent Space）只学会了规整的物体，而没见过多样的艺术表达。

核心直觉：潜空间的“唤醒”

作者认为，3D 模型的潜空间其实足够深邃，可以容纳各种风格。之所以表现不好，是因为其默认的去噪轨迹（Denoising Trajectory）只会通往平庸的结局。

DiLAST 的方案是：借调一个在海量数据上训练过的 2D LDM (如 Stable Diffusion)。由于 2D LDM 见过世界上几乎所有的艺术风格，它能一眼看出渲染出来的 3D 视图“够不够艺术”。

技术详解：DiLAST 管道 (Pipeline)

DiLAST 的工作流程可以概括为以下三个关键步骤：

1. 三分支注意力蒸馏 (Three-branch Attention Distillation)

这是 DiLAST 的核心。它在 2D LDM 中同时运行三个分支：

Content Branch: 锁定原始物体的几何结构。
Style Branch: 提取风格图的特征。
Optimization Branch: 待优化的 3D 渲染图。

模型计算这三个分支在 LDM 内部的 Self-Attention Map 的差异。通过 $L_{A D}$ 损失，强迫 3D 视图的注意力关联向风格图对齐，同时通过 $L_{C}$ 保持内容查询项（Query）的一致。

DiLAST 流程图 图 1：DiLAST 架构图。可以看到 2D 教师模型如何通过梯度回传（Gradient Backprop）来修正 3D 潜变量的去噪方向。

2. 差分渲染与 3DGS 结合

DiLAST 使用 3D Gaussian Splatting (3DGS) 作为解码后端。3DGS 的优势在于渲染极快且全程可微，这使得从 2D 像素返回给 3D 潜变量的梯度路径非常通畅。

3. 多重正则化：告别“浮游物”与“颜色溢出”

为了让生成的 3D 模型在物理上更合理，作者引入了：

Floater Removal ( $L_{F R}$ )：防止空气中出现莫名其妙的半透明碎片。
Color Speckle Suppression ( $L_{C S S}$ )：利用空间平滑性，防止颜色出现高饱和度的奇异斑点。

实验战绩：全方位碾压

在与 MorphAny3D 等 SOTA 方法的对比中，DiLAST 表现出了压倒性的优势。

风格准确度：在处理像霓虹赛博、日式浮世绘或立体派折纸等风格时，DiLAST 能够完美捕捉到笔触和材质感。
即插即用：该方法不仅适用于 Trellis，将其直接套用在 UniLat3D 或 Hunyuan3D 上依然能产生惊艳的结果。

实验结果对比 图 2：与 MorphAny3D 和 StyleSculptor 的视觉对比。可以看到其他方法在处理风格时要么导致严重的结构变形，要么风格化强度极弱。

总结与思考

DiLAST 的成功再次印证了 Foundation Model（大底座模型）在跨模态任务中的主导地位。它告诉我们：与其费力去训练一个万能的 3D 模型，不如学会如何挖掘现有模型潜空间中的“宝藏”。

局限性：由于涉及测试时优化，DiLAST 的每一步生成都需要多次迭代，这对实时性有一定影响。此外，2D 指导可能会在某些极端视角下产生 multi-view 不一致的微小假象（虽已被 3DGS 缓解）。

未来展望：这种“潜空间唤醒”的思路或许可以扩展到 3D 场景编辑、动作捕捉后的风格化同步等更广阔的创作领域。

Find Similar Papers

Try Our Examples

查找最近其他利用 2D 扩散模型作为指导项进行 3D 场景编辑或风格迁移的论文。
哪篇论文最早提出了结构化 3D 潜变量 (Structured 3D Latents) 的概念，本文是如何在 Trellis 架构基础上进行优化的？
有哪些研究探讨了将 2D 注意力蒸馏 (Attention Distillation) 技术应用到视频生成或 4D 动态场景风格迁移中？

Contents

DiLAST：唤醒 3D 潜空间，2D 扩散模型指导下的万能风格迁移

1. TL;DR

2. 背景定位：3D 生成的“舒适区”与“壁垒”

3. 核心直觉：潜空间的“唤醒”

4. 技术详解：DiLAST 管道 (Pipeline)

4.1. 1. 三分支注意力蒸馏 (Three-branch Attention Distillation)

4.2. 2. 差分渲染与 3DGS 结合

4.3. 3. 多重正则化：告别“浮游物”与“颜色溢出”

5. 实验战绩：全方位碾压

6. 总结与思考