本文提出了 Hitem3D 2.0,这是一个多视图引导的原生 3D 纹理生成框架。该方法通过整合 2D 多视图生成先验与原生 3D 稀疏体素表示,解决了 3D 资产生成中纹理不完整和跨视图不一致的难题,实现了 SOTA 级别的细节丰富且几何对齐的纹理合成。
TL;DR
在 3D 内容创作(AIGC 3D)领域,如何生成既高清又无死角的物体纹理一直是一大挑战。Hitem3D 2.0 给出了一套精妙的方案:它不再单纯依赖 2D 贴图,也不再受限于简陋的 3D 原生生成,而是通过**多视图引导(Multi-view Guidance)与原生 3D 表现(Native 3D Representation)**的深度耦合,实现了细节丰富、几何对齐且 360 度无死角的一致性纹理生成。
核心痛点:为什么精美的 3D 纹理这么难?
目前的 3D 纹理技术主要分为两派,但各有各的“坑”:
- 重投影派(Reprojection-based):利用强大的 Stable Diffusion 生成多张图贴回模型。痛点:由于视角遮挡(Occlusion),总会有贴不到的“死角”,且多图之间容易出现接缝和色彩不统一。
- 原生生成派(Native 3D-based):直接在 3D 空间(如体素或点云)上训练生成模型。痛点:高质量 3D 带纹理数据太少,导致模型“见识短”,生成的纹理往往像打了马赛克一样模糊。
Hitem3D 2.0 的直觉很简单:用 2D 模型的“高智商”(丰富细节)去教 3D 模型“做人”(在空间中补全对齐)。
核心架构:两手抓,两手都要硬
Hitem3D 2.0 包含两个核心模块:多视图合成框架和原生 3D 纹理生成模型。
1. 3D 位置感知的高质量多视图生成
作者没有直接复用现成的多视图模型,而是基于图像编辑模型构建了一个“四阶段”流水线:
- Domain Adapter:缩减渲染图与真实生成图之间的分布差距。
- Geometry ControlNet:利用 Normal Map 确保生成的纹理紧贴几何结构,不偏移。
- 3D RoPE 模块:这是灵魂所在。通过 3D 旋转位置编码,让模型在生成 2D 像素时就知道该点在 3D 空间的位置,从而实现跨视角的高保真一致。
- Delight LoRA:去除参考图可能存在的阴影和强光,生成干净的纹理底色。

2. 多视图引导的原生 3D 合成
有了高质量视图后,如何把它们变成 3D 资产?作者设计了一个双分支 VAE:
- 几何分支 + 纹理分支:基于稀疏体素(Sparse Voxel),两分支共享坐标,确保纹理长在正确的几何位置上。
- DiT 生成器:在 Latent Space 中,模型同时接受几何特征和多视图特征的交叉注意力引导。在这里,3D RoPE 再次立功,它充当了 2D 像素到 3D 体素之间的“精准导航”,确保每一个纹理细节都能落到实处,并补全那些视图看不见的盲区。

实验战绩
在与 SOTA 方法和商业模型的对比中,Hitem3D 2.0 展现了压倒性的细节优势。
- 消融实验验证了模块的必要性:没有 ControlNet,纹理会漂移;没有 3D RoPE,跨视图会乱套;没有 Delight,光影会穿帮。
- 补全能力:即使在视图无法覆盖的缝隙和背面,模型也能根据全局语义推导出合理的原生 3D 纹理,彻底告别“贴图感”。

深度洞察
Hitem3D 2.0 的成功在于它深刻理解了 Inductive Bias(归纳偏置) 的利用。2D 扩散模型拥有海量的视觉纹理知识,而原生 3D 结构天然具备空间一致性。通过 3D RoPE 这一数学桥梁,将 2D 图像的像素坐标映射到统一的 3D 坐标系,实现了跨维度的信息无损传输。这为未来实现“端到端”的高精度纹理建模提供了极具价值的范式参考。
总结
Hitem3D 2.0 不仅仅是一个刷榜模型,它通过精密的工程设计(如 Delight 和双分支 VAE)解决了工业应用中的实际痛点。虽然目前对计算资源仍有一定要求,但其合成的 3D 资产质量已初具生产力工具的雏形。
