WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025] LoST:语义层级分词,开启 3D 自回归生成的“低带宽”时代
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 LoST,一种针对 3D 形状的语义级层级化分词(Tokenization)方法。该方法通过 Relational Inter-Distance Alignment (RIDA) 损失函数,将 3D 形状的潜在空间与 DINO 语义特征空间对齐,实现了仅需 128 个 Token 即可达成 SOTA 级别的 3D 重建与自回归生成。

TL;DR

在 3D 生成领域,自回归(AR)模型正在挑战扩散模型的主导地位,但 3D 数据的分词(Tokenization)一直是痛点。传统的几何层级方法(如 OctGPT)在 Token 较少时只能生成“骨架”。本文提出的 LoST (Level of Semantics Tokenization) 彻底颠覆了这一逻辑:它让 3D 编码按语义重要性排序。这意味着,哪怕只给模型 1 个 Token,它也能“脑补”出一个完整且符合语义的 3D 形状,而后续 Token 只是负责把形状修饰得更具体。

痛点深挖:为什么 3D 几何层级(LoD)不适合 AI 生成?

长期以来,3D 领域依赖几何 LoD(如八叉树 Octree 或渐进式网格 Progressive Meshes)来处理多尺度数据。这些方法的设计初衷是渲染与压缩:先给个粗糙的低模,再慢慢加面。

然而,对于大语言模型(LLM)风格的自回归生成来说,这种方式存在两个致命伤:

  1. Token 膨胀:为了描述基本的几何轮廓,早期层级往往就需要成千上万个 Token,导致算力浪费。
  2. 早期解码不可用:如果你在序列还没生成完时强制解码,几何 LoD 往往只能吐出一堆无意义的点云或方块,完全看不出是什么。

LoST 与传统 LoD 的对比 图 1:LoST 与空间层级基线的对比。LoST 在极少 Token 下即可生成完整语义形状。

方法论详解:从几何导向转向语义导向

1. 核心架构:Register Tokens 与嵌套丢弃

LoST 并没有直接对三平面(Triplane)特征进行简单打碎,而是引入了一组可学习的 Register Tokens

  • 原理:通过 ViT 编码器,让这些寄存器 Token 去“观察”整个 3D 三平面,并使用 Causal Masking(因果掩码)Nested Dropout(嵌套丢弃) 强制模型执行:第一号 Token 必须承载最核心的类别信息,最后一号 Token 承载细节。

2. RIDA:解决 3D 语义对齐的“杀手锏”

如何在训练中告诉模型“什么是重要的语义”?在 2D 图像中我们可以通过 DINO 特征对齐(REPA),但在 3D 中直接渲染并对齐 2D DINO 功能的计算开销巨大。

作者提出了 RIDA (Relational Inter-Distance Alignment) 损失函数。其核心直觉是:不追求特征数值的绝对相等,而追求空间关系的拓扑一致

  • 逻辑:如果在 DINO 空间里,“折叠椅”和“办公椅”距离很近,那么在 LoST 的 3D 潜在空间里,它们的特征距离也必须很近。通过 RIDA,LoST 成功将 2D 视觉基础模型的语义常识“蒸馏”到了 3D 空间。

RIDA 架构图 图 2:LoST 总体流程,右侧为关键的 RIDA 语义提取器预训练流程。

实验与结果:百倍效率,SOTA 性能

1. Token 效率对比

LoST 展示了惊人的压缩比。在 3D 重建中,它只需使用 16-64 个 Token,就在 CD(倒角距离)FID(生成质量) 上击败了手动设计几万甚至几十万 Token 的 OctGPT。

2. 自回归生成的质量

在自回归模型(LoST-GPT)的实验中,即使面对复杂的物体,LoST 仅用 128 个 Token 就刷新了 SOTA。这意味着它的推理速度比以往的方法快了几个数量级,且能够实现“早停自回归”——如果前 16 个 Token 已经生成了理想的形状,生成过程可以提前结束。

实验结果对比 表 1:LoST 在不同 Token 长度下的表现,显著优于 OctGPT 和 VertexRegen。

深度洞察:为什么这很重要?

LoST 的成功证明了:生成模型的 Token 序列不需要遵循物理空间或几何拓扑,而是应该遵循人类常识中的语义拓扑。

这一进步为 3D 领域的“大模型化”扫清了障碍:

  • 下游任务潜力:由于 Token 具有语义含义,LoST 的特征可以直接用于 3D 形状检索(如查找所有“鱼形”潜水艇),且效果优于原始三平面特征。
  • 任意长度解码:这让 3D 生成具备了真正的层级可控性,用户可以先看语义粗胚,再决定是否继续消耗算力生成精细模型。

局限性与展望

尽管 LoST 表现优异,但它目前依赖于三平面(Triplane)这种隐式表示,能否将其扩展到 3D 高斯泼溅(Gaussian Splatting)等显式表示仍需探索。此外,极低 Token 模式下的拓扑一致性(如保证桌子一定是四条腿)仍有提升空间。

总结 (Takeaway):LoST 重新定义了 3D 物体的“语言”。在这种新语言下,每一个 Token 都充满了信息,让 3D 创作变得像写文章一样高效且优雅。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决将 2D 视觉基础模型(如 DINOv2 或 CLIP)的语义特征迁移至 3D 潜在表示以优化分词效率的论文。
  • 哪篇论文最早提出了嵌套丢弃 (Nested Dropout) 或 Matryoshka Representation Learning,本文是如何将其应用在 3D 自回归生成中的?
  • 有哪些研究将 LoST 这种变长语义 Token 机制应用到了多模态大模型 (MLLM) 的 3D 理解或交互任务中?
Contents
[CVPR 2025] LoST:语义层级分词,开启 3D 自回归生成的“低带宽”时代
1. TL;DR
2. 痛点深挖:为什么 3D 几何层级(LoD)不适合 AI 生成?
3. 方法论详解:从几何导向转向语义导向
3.1. 1. 核心架构:Register Tokens 与嵌套丢弃
3.2. 2. RIDA:解决 3D 语义对齐的“杀手锏”
4. 实验与结果:百倍效率,SOTA 性能
4.1. 1. Token 效率对比
4.2. 2. 自回归生成的质量
5. 深度洞察:为什么这很重要?
6. 局限性与展望