WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[Apple 2025] LiTo:表面光场 Token 化,开启高质量视角相关 3D 生成新篇章
总结
问题
方法
结果
要点
摘要

本文提出了 LiTo,一种全新的 3D 潜变量表示方法,通过将表面光场(Surface Light Field)离散化为一组紧凑的 Latent Tokens。该方法利用 3D Gaussian Splatting (3DGS) 与高阶 Spherical Harmonics (SH) 建模,在单图生成 3D 任务中实现了 SOTA 级别的观测视角保真度和视角相关(View-dependent)的外观效果。

TL;DR

苹果团队提出的 LiTo (Surface Light Field Tokenization) 突破了现有 3D 生成模型在处理“闪亮”物体(如金属、玻璃)时的局限。通过将 5D 表面光场编码进潜空间,LiTo 不仅能生成精确的 3D 几何,还能完美复刻随视角变化的高光 (Specular Highlights)Fresnel 反射

LiTo 重建与生成效果展示

1. 深度动机:为什么 3D 生成总是“灰蒙蒙”的?

目前的 3D 生成 SOTA 模型(如 TRELLIS, TripoSR)虽然能生成不错的形状,但在外观上往往显得干涩、缺乏质感。本质原因有二:

  1. 维度缺失:它们主要建模 ,这是一种 Diffuse-only 的假设。而真实世界的光影是视角相关的,即
  2. 特征塌陷:前人工作在编码多视图特征时,通常采用均值池化(Mean-pooling),这直接抹杀了不同观测角度下的颜色差异,导致反光效果被掩盖。

LiTo 的直觉很简单:如果我们想生成真实的物体,就必须学习物体的“表面光场”而非仅仅是“颜色”。

2. 核心贡献:表面光场 Token 化

LiTo 的核心是一个强大的 Encoder-Decoder 架构,能够将分布在物体表面的海量采样点转化为 8192 个紧凑的 Latent Tokens。

2.1 3D Patchification 机制

处理 100 万个采样点对 Transformer 来说是计算灾难。LiTo 借鉴了 ViT 的 Patch 思想,但创造性地将其应用在不规则的 3D 表面:

  • 过程:随机采样 个中心点,通过 K-NN 算法将百万采样点分配到最近的中心点,形成“3D 块”。
  • 优势:Query 只在所属的 3D Patch 内进行 Cross-attention,极大降低了计算复杂度。

模型整体架构与 3D Patchification

2.2 双重解码器(Geometry + Radiance)

为了同时保证形状准和外观真,LiTo 采用了双解码器策略:

  • Flow-matching 几何解码器:将点云概率密度对齐到真实表面。
  • 高阶 Gaussian 解码器:将 Latent 转换为具有 3 阶球谐函数(SH Degree 3)的 3D Gaussians,从而支持渲染视角相关效果。

3. 实验战绩:极致的保真度

实验证明,LiTo 在多项指标上大幅领先:

  • 重建精度:在外观指标 LPIPS 上提升了约 40%,能够清晰修复金属盔甲上的环境反光。
  • 生成一致性:如图 6 所示,LiTo 生成的资产能严格遵循输入图像的相机坐标系,而 TRELLIS 等方法往往会产生严重的朝向偏差。

输入视角保真度对比

4. 深度洞察:SH 阶数意味着什么?

论文的一个有趣发现是(见图 S8/S9):

  • 当 SH 阶数为 0 时,模型捕捉的是物体的 Diffuse 基色,这时看起来非常像传统方法的效果(灰暗、无光)。
  • 随着阶数提升到 3,金属表面的流光溢彩逐渐浮现。 这种几何与外观的自动分离为未来的 3D 编辑(如更换环境光照、改变物体材质)提供了巨大的想象空间。

5. 局限与未来

尽管 LiTo 效果惊人,但其 3DGS 渲染目前最高支持 3 阶球谐函数,在处理完全透明或极高频率的镜面反射时仍显吃力。未来的方向可能在于引入更直接的 PBR 材质表示(如 Roughness, Metallicity)。

总结:LiTo 的出现标志着 3D 生成从“能看清形状”进化到了“能分辨质感”的新阶段,是通往真实感虚拟世界的一大步。

发现相似论文

试试这些示例

  • 查找最近其他利用 3D Gaussian Splatting 和高阶球谐函数进行 3D 资产生成的研究。
  • 哪篇论文最早提出了 Surface Light Fields 的概念,本文提出的 3D Patchification 与传统 2D ViT 的 Patch 分割有何本质区别?
  • 有哪些研究探讨了将 Flow Matching 与 3D 离散潜在空间结合以提高 3D 形状生成的拓扑灵活性?
目录
[Apple 2025] LiTo:表面光场 Token 化,开启高质量视角相关 3D 生成新篇章
1. TL;DR
2. 1. 深度动机:为什么 3D 生成总是“灰蒙蒙”的?
3. 2. 核心贡献:表面光场 Token 化
3.1. 2.1 3D Patchification 机制
3.2. 2.2 双重解码器(Geometry + Radiance)
4. 3. 实验战绩:极致的保真度
5. 4. 深度洞察:SH 阶数意味着什么?
6. 5. 局限与未来