本文提出了 OccAny,这是首个通用的、不受约束的城市 3D 占据(Occupancy)预测模型。通过结合 Segmentation Forcing 和 Novel View Rendering 技术,OccAny 能够仅从单目、序列或环视图像中实现 Zero-shot 的度量级 3D 几何补全与语义分割。
TL;DR
传统的 3D 占据预测(3D Occupancy Prediction)往往被困在“标定参数”的牢笼里。一旦换了车型或相机位置,模型性能就会大幅崩塌。OccAny 的出现打破了这一僵局:它无需已知的相机内参或外参,即可在完全陌生的城市街道上,直接从图像中“脑补”出高精度的 3D 度量栅格地图和语义信息。在测试中,其 Zero-shot 性能甚至超过了许多在特定场景深度优化的自监督 SOTA 模型。
1. 痛点:为什么“通用感知”这么难?
在自动驾驶领域,3D 占据预测被认为是感知系统的“终极方案”。然而,现有 SOTA(如 VoxFormer, SurroundOcc)面临两个核心障碍:
- 领域偏见 (Domain Bias):模型在训练时隐式地学习了特定车型的传感器安装位置(Extrinsics),当应用到新车上时,空间特征投影(Lifting)会发生错位。
- 监督稀疏性:LiDAR 提供的监督信号在远端和物体边缘非常稀疏,导致模型生成的 3D 几何体千疮百孔。
Figure 1: OccAny 能够处理序列、单目或环视图像,生成类似 SAM2 的特征并支持提示词分割。
2. 核心技术:两大神技驱动泛化
为了解决通用性问题,作者将基础模型(Foundation Models)的强泛化性与城市几何的特异性相结合,提出了以下创新:
2.1 Segmentation Forcing:用语义校准几何
作者观察到,几何上的不确定性(如反射面或遮挡区)可以通过语义一致性来化解。OccAny 在解码器部分引入了 Segmentation Forcing 策略:
- 模型不只预测 3D 点云,还被迫预测与 SAM2 相似的语义特征向量。
- 通过将这些特征与几何置信度(Confidence Map)加权结合,模型学会了利用语义边界(如车辆轮廓、马路边缘)来约束和规整 3D 几何体的生成。
2.2 Novel View Rendering & TTVA:几何补足的魔术
为了应对单目或有限视角带来的“盲区”,作者开发了一个 Novel View Rendering (NVR) 管线。
- 原理:基于全局场景存储(Global Scene Memory),模型可以渲染出训练集中从未出现过的虚拟视角。
- Test-time View Augmentation (TTVA):在推理阶段,OccAny 沿着相机轨迹在侧向和旋转方向主动产生大量“虚拟视角”。通过融合这些视角的几何点,原本稀疏的周围环境变得稠密且完整(Geometry Completion)。
Figure 2: OccAny 的两阶段训练流程:3D 重建阶段与新视角渲染阶段。
3. 战绩:Zero-shot 也能硬刚 In-domain SOTA
OccAny 在五个大型城市数据集(Waymo, ONCE 等)上训练,并在两个完全未见的测试集(SemanticKITTI 和 Occ3D-NuScenes)上展现了惊人的实力。
- 单目模式下的跨越式提升:在 SemanticKITTI 上,OccAny 的 IoU 达到了 24.03%,相比之前的最强基线(CUT3R*)提升了 11 个百分点。
- 对决自监督模型:即便是在目标域内训练的经典自监督方法(如 SelfOcc),其 IoU 也被 OccAny 这位“外来者”超越。
Figure 3: 占据预测可视化。可以看到 OccAny 在远距离和物体边缘生成的几何体明显比基线模型更加稠密和准确。
4. 深度洞察:为什么这篇工作值得关注?
OccAny 的成功在于它不再试图通过复杂的特定设计(如多摄像头融合 Transformer)来解决 3D 问题,而是回归几何基础。
- 效率与规模:OccAny 拥有约 6.51 亿参数,虽然是一个大家伙,但相比于 AnySplat 等同类模型,其推理效率大幅提升,训练时间也大大缩短(约 1.5 天 A100 训练)。
- Inductive Bias 的剥离:通过舍弃对 Camera Rig 的固定假设,它成为了真正的“通用感知器”。无论是行车记录仪还是多摄像头环视系统,OccAny 都能开箱即用。
5. 总结与展望
OccAny 为下一代自动驾驶感知系统树立了标杆:通用性(Generalization)优先于特定域的过拟合。虽然它在部分指标上仍与全监督模型有差距,但其通过基础模型蒸馏和测试时增强来提升几何真实感的思路,必将启发后续更多的 Spatial Intelligence 研究。
关键 Takeaway:如果你想要一个不挑车、不挑相机、且能脑补遮挡的 3D 感知模型,OccAny 代表了当前技术的前沿。
