本文提出了 Utonia,这是首个旨在实现“全场景通用”的自监督点云 Transformer 编码器。通过在室内、室外 LiDAR、物体 CAD 及视频重建点云等跨域数据上进行统一大规模预训练,Utonia 在多项 3D 感知任务中达到 SOTA,并展现出卓越的领域迁移能力。
TL;DR
在 3D 视觉领域,我们一直梦想拥有像 2D 领域的 CLIP 或 DINO 架构那样通用的 3D 基础模型。然而,点云数据的极端稀疏性与不同传感器带来的“领域碎片化”一直是个难题。Utonia 正是解决这一问题的先驱尝试,它通过一个统一的 Point Transformer V3 编码器,横跨室内重建、室外 LiDAR、CAD 物体以及从视频生成的点云进行预训练,实现了真正的跨域语义对齐。
核心动机:为什么 3D 统一这么难?
在 2D 图像中,像素始终排列在规则的网格上。但在 3D 领域,室外 LiDAR 场景(如 Waymo)是极其稀疏且具有环状扫描模式的,跨度达百米;而物体 CAD 模型(如 ModelNet)则极其致密且跨度微小。
作者发现,简单的将这些数据集混合训练会导致模型产生“领域偏见”:
- 粒度冲突:同样的卷积算子在室内可能覆盖几厘米,在室外可能覆盖数米。
- 模态缺失:有些数据带颜色和法线,有些只有单纯的坐标,模型容易依赖颜色这种“捷径”。
- 重力偏见:场景级数据通常是对齐重力的(z轴向上),而物体则是旋转无关的。
关键技术:Utonia 的“极简手术”
为了打破领域藩篱,Utonia 并没有堆叠复杂的模块,而是提出了三个优雅的改进:
1. 因果模态盲化 (Causal Modality Blinding)
为了防止模型在有颜色的数据集上变“懒”,Utonia 在预训练中引入了两级随机盲化:样本级和点级。这就像训练一个在“蒙眼”和“睁眼”状态下都能稳定行走的机器人,使其在下游任务缺失颜色或法线时依然具备极高的鲁棒性。
2. 感知粒度重缩放 (Perceptual Granularity Rescale)
受人类观察物体时“视网膜分辨率相对固定”的启发,Utonia 在位置编码前将所有输入的坐标缩放到一个标准的感知粒度。通过这种方式,原本跨度巨大的场景在模型眼中变成了具有相似局部统计规律的几何体。
3. RoPE 桥接对齐坐标
传统的稀疏卷积依靠离散化位置,这在密度剧烈变化的 LiDAR 数据上表现糟糕。Utonia 首次大规模采用了 3D 旋转位置编码 (RoPE),并直接作用于对齐后的连续坐标。这不仅让注意力机制对采样密度不敏感,更增强了模型捕捉连续相对几何关系的能力。
图 1:Utonia 核心流程,涵盖跨域数据混合、RoPE 增强、以及广泛的下游应用。
实验战绩:SOTA 与涌现行为
在 ScanNet 室内分割、Waymo 室外分割以及 ModelNet 物体分类等多个任务中,Utonia 均表现卓越。实验中最令人振奋的是其模态鲁棒性:在 ScanNet 缺失颜色实验中,之前的 SOTA 模型 Concerto 性能接近腰斩,而 Utonia 依然稳如泰山。
表 1:在缺失颜色(w/o c)或法线(w/o n)的情况下,Utonia 展现出极强的抗干扰能力。
此外,Utonia 还表现出了一些“涌现”行为:
- 跨域检索:在没有额外对齐的情况下,模型能够自发地将真实世界中的车与 CAD 模型中的车语义对齐。
- 机器人操纵:通过 Utonia 提取的特征,机械臂在杂乱环境中的抓取成功率得到了显著提升。
深度洞察:3D 基础模型的未来
Utonia 并没有止步于刷榜,它客观指出了当前 3D 视觉的局限性:
- 任务接口冲突:物体级任务需要全局语义,而部分级(Part-level)任务需要复杂的查询。未来可能需要像 [CLS] 寄存器或 Query-based Decoder 这样的解耦设计。
- 4D 演进:点云序列(时间轴)的加入将是下一个前沿,不仅仅是简单的帧堆叠。
- 算力瓶颈:随着数据规模从 250k 扩展到 1M+,稀疏计算的存储压力依然是制约其成为大模型的关键。
总结
Utonia 成功的关键在于其“回归几何本源”的设计理念。它告诉我们:想要实现通用的 3D 认知,不应在特定领域的 Prior 上修修补补,而应通过粒度对齐和连续位置建模来挖掘点云背后统一的物理规律。
图 2:Utonia 在复杂机器人场景(Cluttered Manipulation)中的特征一致性展示。
