GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

[CVPR 2024] GaussianGPT：迈向自回归 3D 高斯场景生成的“GPT 时代”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 GaussianGPT，这是一款基于 Transformer 的自回归 3D 生成模型。它通过将 3D Gaussian Splatting 场景离散化为令牌序列，实现了通过“下一令牌预测”（Next-token Prediction）直接生成复杂的 3D 室内场景，并在场景补全和无限外扩任务上达到了 SOTA 水平。

TL;DR

生成式 AI 正在从 2D 图像/视频向 3D 空间快速演进。传统的 3D 生成多依赖扩散模型（Diffusion），虽然质量高但难以实现“像搭积木一样”的增量生成。慕尼黑工业大学（TUM）的研究团队推出了 GaussianGPT，首次通过纯自回归（Autoregressive）的方式，将 3D Gaussian Splatting 场景转化为令牌序列进行预测，实现了 3D 场景的精准补全、无限外扩和极高质量的物体合成。

痛点深挖：为什么 3D 场景生成很难“自回归”？

在自然语言处理中，文字是天然的一维序列。但在 3D 空间中：

缺乏自然顺序：3D 空间没有固定的起始点，如何将三维网格扁平化为一维序列且不丢失空间邻近性？
表示不规整：3D 高斯（Gaussians）是无序的点集，参数包括位置、旋转、缩放、不透明度和颜色，直接建模非常混乱。
计算开销巨大：场景级别的 3D 数据维度极高，直接处理会导致 Transformer 的上下文窗口爆炸。

核心方法论：从高斯到令牌的华丽转身

1. 场景压缩与离散量化

为了让 Transformer 跑得通，作者首先通过一个稀疏 3D 卷积自编码器将复杂的 3D 高斯原语映射到稀疏的特征网格上。

向量量化 (VQ)：利用 Lookup-free Quantization (LFQ) 技术，将连续的特征映射为离散的 Codebook 索引。
解耦建模：序列中交替出现“位置令牌”（预测下一个点在哪）和“特征令牌”（预测这个点长什么样），这种设计避免了几何与语义特征的相互干扰。

2. 空间感知的 Transformer 架构

即使将 3D 序列化为 1D，传统的 1D 位置编码也会失效（空间上邻近的点在序列中可能相隔万里）。

3D RoPE (旋转位置编码)：作者引入了 3D 坐标感知的 RoPE，使 Attention 机制直接感知令牌之间的物理距离，而非序列距离。

模型架构图 上图展示了 GaussianGPT 的核心流程：从 Gaussian 场景到离散 Token 序列，再通过 Transformer 进行自回归预测。

实验战绩：不只是补全，更是进化

1. 物体生成：降维打击

在 PhotoShape 椅子数据集上，GaussianGPT 的表现堪称惊艳。其 FID 指标仅为 5.68，对比之前的 SOTA 方法（如 L3DG 的 8.49），提升了约 33%。更重要的是，它生成的结构更加清晰，避开了扩散模型中常见的“噪点”问题。

| Method | FID ↓ | KID ↓ | COV ↑ | MMD ↓ | | :--- | :--- | :--- | :--- | :--- | | π-GAN | 52.71 | 13.64 | 39.92 | 0.08 | | GaussianGPT (Ours) | 5.68 | 1.835 | 67.40 | 4.278 |

2. 场景补全与无限外扩

由于自回归的天性，GaussianGPT 天生擅长“补全”。只要给它一段场景的“开头”，它就能逻辑严密地推导出剩下的部分。通过滑动窗口技术，模型甚至可以生成超出训练尺寸的大规模室内环境，且墙壁、地板的衔接异常平滑。

实验结果对比 图示：给定部分输入（左一），GaussianGPT 能够生成多种语义合理的补全结果。

深度洞察：序列化的玄学

有趣的是，作者在消融实验中发现，复杂的空间填充曲线（如 Hilbert 曲线）在 3D 生成中表现并不比简单的 XYZ 顺序好。

分析：这是因为 3D RoPE 已经把空间关系“注入”到了注意力矩阵中，此时序列顺序的重要性反而下降了，简单的扫描顺序反而降低了模型预测“下一项”的难度。

总结与展望

GaussianGPT 的出现标志着 3D 生成领域正在吸纳 LLM 的成熟经验。尽管目前在处理真实世界复杂扫描（ScanNet++）时仍受限于自编码器的精度，但其展示的增量生成和因果推理能力，为未来的交互式 3D 设计和具身智能（Embodied AI）模拟环境构建打开了新大门。

局限性：在大规模生成速度（约 4.4 列/秒）和高频细节保留上，仍有提升空间。

Find Similar Papers

Try Our Examples

查找最近其他使用 Transformer 自回归架构进行 3D 场景或物体生成的 SOTA 论文。
3D 旋转位置编码 (3D RoPE) 最早是在哪篇论文中提出的，它与本文在处理稀疏网格时的应用有何异同？
探讨将 GaussianGPT 的离散令牌化方案应用到多模态大模型（如结合文本指令进行 3D 编辑）的相关研究。

Contents

[CVPR 2024] GaussianGPT：迈向自回归 3D 高斯场景生成的“GPT 时代”

1. TL;DR

2. 痛点深挖：为什么 3D 场景生成很难“自回归”？

3. 核心方法论：从高斯到令牌的华丽转身

3.1. 1. 场景压缩与离散量化

3.2. 2. 空间感知的 Transformer 架构

4. 实验战绩：不只是补全，更是进化

4.1. 1. 物体生成：降维打击

4.2. 2. 场景补全与无限外扩

5. 深度洞察：序列化的玄学

6. 总结与展望