WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICLR 2026] LATO:突破 3D 网格生成的“拓扑墙”,实现秒级艺术家级建模
总结
问题
方法
结果
要点
摘要

本文提出了 LATO,一种基于拓扑保持稀疏体素潜空间的 3D 网格生成框架。通过引入顶点位移场 (VDF) 和两阶段 Flow Matching 过程,LATO 实现了能够直接生成具有显式拓扑结构、且符合艺术家习惯的高质量 3D 网格。

TL;DR

在 3D 生成领域,如何兼顾“生成速度”与“显式拓扑(Mesh Topology)”一直是业界的顽疾。传统的隐式生成虽然快,但倒出来的模型像乱石堆;显式自回归模型虽然能学到拓扑逻辑,但慢得令人发指。LATO (3D Mesh Flow Matching with Structured TOpology Preserving LAtents) 通过引入一种全新的 T-Voxels 潜空间,巧妙地利用 Flow Matching 实现了显式网格的并行生成。它不仅能产生符合艺术家审美的边流,更将生成耗时从分钟级压缩到了秒级。

1. 痛点:为什么 SOTA 模型的拓扑总是“没法用”?

当前的 3D 生成模型主要分为两大派系,但各有各的难处:

  1. 隐式派 (Implicit-based):如 TRELLIS、Hunyuan3D。它们生成的是 SDF 或占用场,最后用 Marching Cubes 强行切出网格。结果是:网格极度密集、布线杂乱,且必须是“水密(Watertight)”物体,对非流形或开边界资产(如衣服、单片模型)支持极差。
  2. 显式派 (Explicit-based):如 MeshGPT、MeshAnything。它们将网格序列化,像写作文一样预测下一个顶点。结果是:计算复杂度随复杂度指数增长,内存瓶颈严重,经常出现“断头断脚”的碎裂现象,且推理极慢。

LATO 与现有范式对比

2. 核心直觉:Vertex Displacement Field (VDF)

LATO 的核心突破点在于它重新定义了模型“看”网格的方式。作者提出了 顶点位移场 (VDF)

想象每一个面片上的随机点点都自带一个导航包,里面装载着该点指向它所属三角面片三个顶点的位移向量

  • 几何表达:位移向量为零的地方就是顶点位置。
  • 拓扑表达:位移向量的变化率暗示了边的存在。

这种表示方法相比于简单的分类(点、线、面),提供了稠密且连续的监督信号,非常适合 Flow Matching 或扩散模型进行梯度练习。

3. 架构拆解:T-Voxels 与 稀疏 VAE

LATO 的流水线分为两个核心环节:

A. 稀疏体素 VAE 与 拓扑保持解码

模型将 VDF 特征压缩到稀疏体素格中,称为 T-Voxels。解码时通过“分级细分与剪枝(Hierarchical Subdivision & Pruning)”逐步逼近顶点坐标。

  • Connection Head:这是一个专门的连接预测分支。它查询 T-Voxels 中的全局与局部特征,预测任意顶点对 之间是否存在边。这种方式直接跳过了复杂的等值面提取算法,原生预测连接关系。

LATO 总体架构图

B. 两阶段 Flow Matching

在生成阶段,LATO 遵循了先“骨架”后“细节”的逻辑:

  1. 结构生成:先根据图像生成 128^3 分辨率的稀疏几何体素。
  2. 拓扑特征细化:在占据的体素内,利用 Flow Matching Transformer 填充具体的 T-Voxel 特征。

4. 实验战绩:速度与质量的双重碾压

几何精度对比

在 CD (Chamfer Distance) 和 NC (Normal Consistency) 指标上,LATO 显著优于自回归模型。相比 MeshAnythingv2,LATO 在保持表面平滑度和法向一致性上展现了极强的 Inductive Bias。

| Method | CD(L2)↓ | NC ↑ | | :--- | :--- | :--- | | MeshAnythingv2 | 0.066 | 0.766 | | LATO (Ours) | 0.044 | 0.835 |

推理效率:不再需要“等咖啡”

这是 LATO 最令人兴奋的地方。由于采用了并行化的 Flow Matching 而非逐个 Token 的序列化预测,LATO 的生成时间几乎不受面数线性增长的困扰。即便生成上万个三角形的复杂模型,耗时也稳定在 10s 以内,而同期自回归模型可能需要数分钟。

生成时间对比

5. 局限性与未来展望

尽管 LATO 在拓扑质量和速度上取得了巨大成功,但作者也坦言,受限于基础稀疏体素的分辨率,模型在处理超微小三角面片或工业级极高精度细节时仍有提升空间。未来的方向可能包括引入 Octree-based (八叉树) 的多尺度表示。

6. 总结

LATO 标志着 3D 生成从“能看”向“能用”迈出了关键一步。它不仅解决了长久以来困扰学术界的显式拓扑学习难题,更通过高效的稀疏体素架构为工业级实时 3D 内容创作(如游戏引擎部署、场景合成)提供了可落地的技术支撑。

城市建筑大规模合成应用展示

发现相似论文

试试这些示例

  • 查找最近一年内利用 Flow Matching 技术解决 3D 几何与拓扑协同生成的其他相关论文。
  • 哪篇论文最早在 3D 生成中提出了顶点位移场 (Vertex Displacement Field) 的概念,本文在特征聚合上做了哪些针对性改进?
  • 探究如何将 LATO 的拓扑保持机制扩展到具有动态变形需求的 4D 或者是带骨骼绑定 (Rigging) 的 3D 资产生成中。
目录
[ICLR 2026] LATO:突破 3D 网格生成的“拓扑墙”,实现秒级艺术家级建模
1. TL;DR
2. 1. 痛点:为什么 SOTA 模型的拓扑总是“没法用”?
3. 2. 核心直觉:Vertex Displacement Field (VDF)
4. 3. 架构拆解:T-Voxels 与 稀疏 VAE
4.1. A. 稀疏体素 VAE 与 拓扑保持解码
4.2. B. 两阶段 Flow Matching
5. 4. 实验战绩:速度与质量的双重碾压
5.1. 几何精度对比
5.2. 推理效率:不再需要“等咖啡”
6. 5. 局限性与未来展望
7. 6. 总结