Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding

Volt：回归原生 Transformer，开启 3D 场景理解的“大化”时代

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Volume Transformer (Volt)，这是一种基于原生 Transformer (Vanilla Transformer) 架构的 3D 场景理解主干网络。通过将 3D 点云划分为体积补丁 (Volumetric Patch) 并结合 3D 旋转位置编码 (RoPE)，Volt 在无需复杂领域先验的情况下，在 ScanNet、ScanNet200 等多个 3D 分割基准上达到了 SOTA 性能，且推理速度比之前的领先模型 PTv3 快 2 倍。

TL;DR

在 3D 视觉领域，长期以来一直认为由于点云的稀疏性和计算复杂度，必须设计复杂的局部算子或分级架构。本文提出的 Volume Transformer (Volt) 彻底颠覆了这一观念。它直接将原本为 NLP 和 2D 视觉设计的 Vanilla Transformer Encoder 应用于 3D 场景，通过全局注意力（Global Attention）和 3D RoPE 位置编码，在速度和精度上双双超越了高度定制化的当前最强模型 PTv3。

痛点深挖：被“隔离”的 3D 骨干网络

过去的 3D 模型（如 Point Transformer v3, 3D U-Net）虽然强大，但存在两个核心局限：

生态孤岛：定制化的局部注意力算子通常需要手写的 CUDA 内核（如 PTv3 的空间填充曲线），无法享受到 FlashAttention 等通用 Transformer 加速技术的红利。
归纳偏置的局限：模型中过多的领域先验（Inductive Biases）虽然在小数据集上表现稳健，但在大数据面前往往会成为上限。

Volt 提出的动机很简单：能否像 2D 领域的 ViT 那样，用最干净的架构，吃最强的数据红利？

方法论详解：如何将 3D 推入 Vanilla Transformer？

Volt 的核心架构只需三个关键步骤：

1. 体积补丁 Tokenization

由于点云动辄数十万点，直接把点当成 token 会触发 $O (N^{2})$ 的内存爆炸。Volt 将 3D 空间划分为 Cubic Patches（立方体补丁）。

首先进行体素化（Voxelization）。
接着使用一个步长等于核大小的 Sparse 3D Convolution 进行下采样，将每个 patch 映射为一个 D 维的特征向量（Token）。
典型设置下，一个室内场景仅生成约 5,000 个 tokens，这使得全局注意力在现代显卡上通过 FlashAttention 实现变得轻而易举。

2. 3D 旋转位置编码 (3D RoPE)

Transformer 是置换不变的，因此位置编码至关重要。Volt 扩展了 RoPE，将 Query 和 Key 进行轴内分解，并在 X, Y, Z 三个轴上独立应用旋转变换。

非对称设计：考虑到 3D 场景（尤其是自动驾驶）水平方向信息多于垂直方向，Volt 给 X/Y 轴分配了比 Z 轴更多的频率参数配置。

模型架构图

3. 数据驱动的训练配方 (Recipe)

原生模型很难训。为了解决 3D 数据量不足导致的过拟合，Volt 使用了：

CNN Distillation：从一个经典的 3D U-Net（MinkUNet）中“借用”归纳偏置。
多数据集联合训练：横跨 ScanNet++, ARKitScenes 等多个数据集，打破单一数据的限制。

实验与结果：速度与精度的双重碾压

1. SOTA 性能对比

在 ScanNet200 和最新的 ScanNet++ 上，Volt 展现了恐怖的 Scaling 能力。随着训练数据的增加（从 50% 到 100% 乃至跨库训练），Volt 的提升斜率远超 PTv3，最终在室内外多个任务中摘得桂冠。

实验结果对比

2. 推理效率

得益于其架构的纯净性，Volt 可以直接调用 FlashAttention-2 核心。

延迟降一半：Volt-B 在 A100/H100 上的推理速度是 PTv3 的 2 倍。
内存省一半：峰值显存占用减少了 48%。

性能效率对比

深度洞察：3D 视觉的“大统一”前夜

Volt 的意义不仅在于刷了几分，而是在于它证明了：只要算力够强、数据够多，3D 领域不需要特殊的定制，标准的 Transformer 才是最终解。

通过消除 specialized 3D modules，Volt 让 3D 任务可以无缝集成到现有的多模态大模型（VLM）生态中。未来，我们或许能看到一个像 Llama 处理文本一样处理 3D 物理世界的通用模型，而 Volt 正是这一路径上的一个强力支点。

局限性：在极小的数据集（如只有几百个样本）下，如果没有高效的蒸馏和增强，Volt 仍然难以和传统 CNN/等变卷积竞争。但这正是 Scaling Law 告诉我们的真理：数据才是架构的上限。

Find Similar Papers

Try Our Examples

查找最近其他尝试在 3D 点云处理中舍弃局部注意力（Local Attention）并采用全局注意力（Global Attention）的 SOTA 论文。
哪篇论文最早在视觉 Transformer 中引入了旋转位置编码 (RoPE)，Volt 提出的 3D 非对称 RoPE 与其有何本质改进？
目前有哪些研究正在构建大规模 3D 预训练数据集，其规模是否已经能够支撑像 Volt 这样的原生 Transformer 进行无监督预训练？

Contents

Volt：回归原生 Transformer，开启 3D 场景理解的“大化”时代

1. TL;DR

2. 痛点深挖：被“隔离”的 3D 骨干网络

3. 方法论详解：如何将 3D 推入 Vanilla Transformer？

3.1. 1. 体积补丁 Tokenization

3.2. 2. 3D 旋转位置编码 (3D RoPE)

3.3. 3. 数据驱动的训练配方 (Recipe)

4. 实验与结果：速度与精度的双重碾压

4.1. 1. SOTA 性能对比

4.2. 2. 推理效率

5. 深度洞察：3D 视觉的“大统一”前夜