Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

[CVPR 2026] Know3D：让多模态大模型成为 3D 生成的“语义大脑”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Know3D，一种利用多模态大语言模型（MLLM）知识引导 3D 生成的创新框架。通过将 Qwen-Image-Edit 的中间层隐藏状态（Hidden States）注入 3D 生成模型，Know3D 实现了对物体背面（back-view）等不可见区域的语义可控生成。

TL;DR

传统的单张图片转 3D（Image-to-3D）任务常像开盲盒：你永远不知道模型会给物体的背面“脑补”出什么奇怪的形状。Know3D 通过引入 Vision-Language Models (VLMs) 的深层知识，首次实现了对 3D 资产不可见区域的语言可控生成。它不只是生硬地参考图像，而是理解了“什么是背面”。

背景定位：从“盲目脑补”到“语义理解”

当前的 SOTA 方法（如 TRELLIS, Direct3D-S2）在几何精度上已非常惊人，但在处理单视图之外的区域时，由于缺乏 3D 数据支撑的全局常识，表现得非常随机。

作者认为，互联网规模的 2D 图像-文本数据中已经包含了丰富的物理常识和空间逻辑。Know3D 的核心贡献在于，它将多模态扩散模型（Qwen-Image-Edit）作为桥梁，把抽象的语义指令转化为具体的 3D 结构约束。

核心动机：为什么直接用 VLM 不行？

作者指出两种失败的直觉：

自回归生成 3D 序列（如 MeshGPT）：这种方式通常分辨率较低，且破坏了 VLM 原有的强大语义先验。
直接输入 VLM 特征：这些特征过于抽象，缺乏 3D 生成所需的空间定位感。

Know3D 的 Insight：扩散模型（Diffusion Transformer, DiT）在去噪过程中，其中间层的隐藏状态（Hidden States）天然携带了空间结构和语义的双重信息。

方法论详解：知识注入的“外科手术”

Know3D 的架构分为两个关键阶段：

1. 语义感知的正反向生成训练

为了让模型听懂“生成背面”这个指令，作者微调了 Qwen2.5-VL，使其能够根据正面图和文字描述（如“带有拉链的背包背面”）生成合理的投影效果。

2. 隐藏状态注入 (Hidden-State Injection)

这是 Know3D 的精髓。它没有直接使用生成的图像（因为图像可能存在像素级瑕疵），而是提取了 MMDiT 在 $t=0.25$ 时间步的中间层特征 $H_{DiT}$。

模型架构图

在 3D 生成模型（基于 TRELLIS2）中，作者设计了一个平行交叉注意力分支：

保留原分支：确保不破坏预训练的 3D 生成分布（Prior）。
新增控制分支：利用 $H_{DiT}$ 引导不可见部分的几何拓扑。

实验与结果：语义控制的威力

在 HY3D-Bench 的对比中，Know3D 在语义一致性上全面超越了基线模型。

实验结果对比

关键发现：

消融实验显示，提取 $t=0.25$ 时刻的特征效果最好。作者解释称，此时模型已确定了全局布局，但还没被过多的局部像素噪声干扰。
可控性展示：如果你给模型一张椅子正面图，你可以通过文字命令让它生成“圆柱形腿的背面”或“十字架支撑的背面”，这在以前的 stochastic 方法中是无法想象的。

深度洞察：3D 生成的未来在 2D 知识中？

Know3D 实际上是在用“知识”弥补“数据”的不足。3D 扫描数据永远无法达到 2D 互联网数据的量级，因此这种通过扩散模型隐藏状态来“蒸馏”语义常识的方法，可能会成为未来 3D 内容创作（AIGC 3D）的主流范式。

结论与局限：虽然 Know3D 解决了可控性问题，但其上限取决于底层 MLLM 的理解能力。如果 Qwen 无法理解复杂的空间指令，3D 生成依然会产生偏差。如何更精细地对齐 2D 特征与 3D 空间体积，仍是值得探索的方向。

Find Similar Papers

Try Our Examples

查找最近利用大语言模型（LLM）或多模态模型（VLM）为 3D 任务提供结构化先验的其他最新研究方案。
哪篇论文最早探讨了扩散模型中间层隐藏状态（Hidden States）包含 3D 几何信息的现象，其理论依据是什么？
探索 Know3D 这种知识注入方法在多视图一致性生成或大规模场景重建任务中的应用潜力。

Contents

[CVPR 2026] Know3D：让多模态大模型成为 3D 生成的“语义大脑”

1. TL;DR

2. 背景定位：从“盲目脑补”到“语义理解”

3. 核心动机：为什么直接用 VLM 不行？

4. 方法论详解：知识注入的“外科手术”

4.1. 1. 语义感知的正反向生成训练

4.2. 2. 隐藏状态注入 (Hidden-State Injection)

5. 实验与结果：语义控制的威力

6. 深度洞察：3D 生成的未来在 2D 知识中？