本文提出了 DiLAST,一种名为“2D 扩散驱动的潜空间唤醒”的 3D 风格迁移框架。该方法通过 2D Diffusion 模型的注意力蒸馏(Attention Distillation)指导 3D 生成模型(如 Trellis)中结构化潜变量(Structured 3D Latents)的去噪轨迹,实现了针对分布外(OOD)艺术风格的高泛化性 3D 资产生成。
TL;DR
在 3D 资产生成领域,如何让模型“听话地”变换风格一直是个难题。本文提出的 DiLAST 揭示了一个令人惊讶的结论:现有的 3D 生成模型其实“潜力无限”,只是缺乏引导。通过引入成熟的 2D Latent Diffusion Model (LDM) 作为导师,DiLAST 能够在不改动底层 3D 模型的情况下,通过优化 Structured 3D Latents,将任何天马行空的 OOD(分布外)艺术风格完美融入 3D 模型中。
背景定位:3D 生成的“舒适区”与“壁垒”
当前的 3D 生成模型(如 Trellis, Hunyuan3D 2.0)虽然能生成高质量几何体,但在风格控制上显得非常局促。
- 痛点:如果你给模型一张训练集里没见过的毕加索抽象画,模型往往会“懵掉”,生成的 3D 模型要么几何崩坏,要么颜色脏乱。
- 本质原因:3D 训练数据量远小于 2D,导致 3D 模型的潜空间(Latent Space)只学会了规整的物体,而没见过多样的艺术表达。
核心直觉:潜空间的“唤醒”
作者认为,3D 模型的潜空间其实足够深邃,可以容纳各种风格。之所以表现不好,是因为其默认的去噪轨迹(Denoising Trajectory)只会通往平庸的结局。
DiLAST 的方案是:借调一个在海量数据上训练过的 2D LDM (如 Stable Diffusion)。由于 2D LDM 见过世界上几乎所有的艺术风格,它能一眼看出渲染出来的 3D 视图“够不够艺术”。
技术详解:DiLAST 管道 (Pipeline)
DiLAST 的工作流程可以概括为以下三个关键步骤:
1. 三分支注意力蒸馏 (Three-branch Attention Distillation)
这是 DiLAST 的核心。它在 2D LDM 中同时运行三个分支:
- Content Branch: 锁定原始物体的几何结构。
- Style Branch: 提取风格图的特征。
- Optimization Branch: 待优化的 3D 渲染图。
模型计算这三个分支在 LDM 内部的 Self-Attention Map 的差异。通过 损失,强迫 3D 视图的注意力关联向风格图对齐,同时通过 保持内容查询项(Query)的一致。
图 1:DiLAST 架构图。可以看到 2D 教师模型如何通过梯度回传(Gradient Backprop)来修正 3D 潜变量的去噪方向。
2. 差分渲染与 3DGS 结合
DiLAST 使用 3D Gaussian Splatting (3DGS) 作为解码后端。3DGS 的优势在于渲染极快且全程可微,这使得从 2D 像素返回给 3D 潜变量的梯度路径非常通畅。
3. 多重正则化:告别“浮游物”与“颜色溢出”
为了让生成的 3D 模型在物理上更合理,作者引入了:
- Floater Removal ():防止空气中出现莫名其妙的半透明碎片。
- Color Speckle Suppression ():利用空间平滑性,防止颜色出现高饱和度的奇异斑点。
实验战绩:全方位碾压
在与 MorphAny3D 等 SOTA 方法的对比中,DiLAST 表现出了压倒性的优势。
- 风格准确度:在处理像霓虹赛博、日式浮世绘或立体派折纸等风格时,DiLAST 能够完美捕捉到笔触和材质感。
- 即插即用:该方法不仅适用于 Trellis,将其直接套用在 UniLat3D 或 Hunyuan3D 上依然能产生惊艳的结果。
图 2:与 MorphAny3D 和 StyleSculptor 的视觉对比。可以看到其他方法在处理风格时要么导致严重的结构变形,要么风格化强度极弱。
总结与思考
DiLAST 的成功再次印证了 Foundation Model(大底座模型)在跨模态任务中的主导地位。它告诉我们:与其费力去训练一个万能的 3D 模型,不如学会如何挖掘现有模型潜空间中的“宝藏”。
局限性:由于涉及测试时优化,DiLAST 的每一步生成都需要多次迭代,这对实时性有一定影响。此外,2D 指导可能会在某些极端视角下产生 multi-view 不一致的微小假象(虽已被 3DGS 缓解)。
未来展望:这种“潜空间唤醒”的思路或许可以扩展到 3D 场景编辑、动作捕捉后的风格化同步等更广阔的创作领域。
