本文提出了 LATO,一种基于拓扑保持稀疏体素潜空间的 3D 网格生成框架。通过引入顶点位移场 (VDF) 和两阶段 Flow Matching 过程,LATO 实现了能够直接生成具有显式拓扑结构、且符合艺术家习惯的高质量 3D 网格。
TL;DR
在 3D 生成领域,如何兼顾“生成速度”与“显式拓扑(Mesh Topology)”一直是业界的顽疾。传统的隐式生成虽然快,但倒出来的模型像乱石堆;显式自回归模型虽然能学到拓扑逻辑,但慢得令人发指。LATO (3D Mesh Flow Matching with Structured TOpology Preserving LAtents) 通过引入一种全新的 T-Voxels 潜空间,巧妙地利用 Flow Matching 实现了显式网格的并行生成。它不仅能产生符合艺术家审美的边流,更将生成耗时从分钟级压缩到了秒级。
1. 痛点:为什么 SOTA 模型的拓扑总是“没法用”?
当前的 3D 生成模型主要分为两大派系,但各有各的难处:
- 隐式派 (Implicit-based):如 TRELLIS、Hunyuan3D。它们生成的是 SDF 或占用场,最后用 Marching Cubes 强行切出网格。结果是:网格极度密集、布线杂乱,且必须是“水密(Watertight)”物体,对非流形或开边界资产(如衣服、单片模型)支持极差。
- 显式派 (Explicit-based):如 MeshGPT、MeshAnything。它们将网格序列化,像写作文一样预测下一个顶点。结果是:计算复杂度随复杂度指数增长,内存瓶颈严重,经常出现“断头断脚”的碎裂现象,且推理极慢。

2. 核心直觉:Vertex Displacement Field (VDF)
LATO 的核心突破点在于它重新定义了模型“看”网格的方式。作者提出了 顶点位移场 (VDF)。
想象每一个面片上的随机点点都自带一个导航包,里面装载着该点指向它所属三角面片三个顶点的位移向量 。
- 几何表达:位移向量为零的地方就是顶点位置。
- 拓扑表达:位移向量的变化率暗示了边的存在。
这种表示方法相比于简单的分类(点、线、面),提供了稠密且连续的监督信号,非常适合 Flow Matching 或扩散模型进行梯度练习。
3. 架构拆解:T-Voxels 与 稀疏 VAE
LATO 的流水线分为两个核心环节:
A. 稀疏体素 VAE 与 拓扑保持解码
模型将 VDF 特征压缩到稀疏体素格中,称为 T-Voxels。解码时通过“分级细分与剪枝(Hierarchical Subdivision & Pruning)”逐步逼近顶点坐标。
- Connection Head:这是一个专门的连接预测分支。它查询 T-Voxels 中的全局与局部特征,预测任意顶点对 之间是否存在边。这种方式直接跳过了复杂的等值面提取算法,原生预测连接关系。

B. 两阶段 Flow Matching
在生成阶段,LATO 遵循了先“骨架”后“细节”的逻辑:
- 结构生成:先根据图像生成 128^3 分辨率的稀疏几何体素。
- 拓扑特征细化:在占据的体素内,利用 Flow Matching Transformer 填充具体的 T-Voxel 特征。
4. 实验战绩:速度与质量的双重碾压
几何精度对比
在 CD (Chamfer Distance) 和 NC (Normal Consistency) 指标上,LATO 显著优于自回归模型。相比 MeshAnythingv2,LATO 在保持表面平滑度和法向一致性上展现了极强的 Inductive Bias。
| Method | CD(L2)↓ | NC ↑ | | :--- | :--- | :--- | | MeshAnythingv2 | 0.066 | 0.766 | | LATO (Ours) | 0.044 | 0.835 |
推理效率:不再需要“等咖啡”
这是 LATO 最令人兴奋的地方。由于采用了并行化的 Flow Matching 而非逐个 Token 的序列化预测,LATO 的生成时间几乎不受面数线性增长的困扰。即便生成上万个三角形的复杂模型,耗时也稳定在 10s 以内,而同期自回归模型可能需要数分钟。

5. 局限性与未来展望
尽管 LATO 在拓扑质量和速度上取得了巨大成功,但作者也坦言,受限于基础稀疏体素的分辨率,模型在处理超微小三角面片或工业级极高精度细节时仍有提升空间。未来的方向可能包括引入 Octree-based (八叉树) 的多尺度表示。
6. 总结
LATO 标志着 3D 生成从“能看”向“能用”迈出了关键一步。它不仅解决了长久以来困扰学术界的显式拓扑学习难题,更通过高效的稀疏体素架构为工业级实时 3D 内容创作(如游戏引擎部署、场景合成)提供了可落地的技术支撑。

