OccAny: Generalized Unconstrained Urban 3D Occupancy

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

OccAny: Generalized Unconstrained Urban 3D Occupancy

[CVPR 2026] OccAny：突破传感器束缚，开启通用城市 3D 占据预测新篇章

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 OccAny，这是首个通用的、不受约束的城市 3D 占据（Occupancy）预测模型。通过结合 Segmentation Forcing 和 Novel View Rendering 技术，OccAny 能够仅从单目、序列或环视图像中实现 Zero-shot 的度量级 3D 几何补全与语义分割。

TL;DR

传统的 3D 占据预测（3D Occupancy Prediction）往往被困在“标定参数”的牢笼里。一旦换了车型或相机位置，模型性能就会大幅崩塌。OccAny 的出现打破了这一僵局：它无需已知的相机内参或外参，即可在完全陌生的城市街道上，直接从图像中“脑补”出高精度的 3D 度量栅格地图和语义信息。在测试中，其 Zero-shot 性能甚至超过了许多在特定场景深度优化的自监督 SOTA 模型。

1. 痛点：为什么“通用感知”这么难？

在自动驾驶领域，3D 占据预测被认为是感知系统的“终极方案”。然而，现有 SOTA（如 VoxFormer, SurroundOcc）面临两个核心障碍：

领域偏见 (Domain Bias)：模型在训练时隐式地学习了特定车型的传感器安装位置（Extrinsics），当应用到新车上时，空间特征投影（Lifting）会发生错位。
监督稀疏性：LiDAR 提供的监督信号在远端和物体边缘非常稀疏，导致模型生成的 3D 几何体千疮百孔。

OccAny 核心理念图 Figure 1: OccAny 能够处理序列、单目或环视图像，生成类似 SAM2 的特征并支持提示词分割。

2. 核心技术：两大神技驱动泛化

为了解决通用性问题，作者将基础模型（Foundation Models）的强泛化性与城市几何的特异性相结合，提出了以下创新：

2.1 Segmentation Forcing：用语义校准几何

作者观察到，几何上的不确定性（如反射面或遮挡区）可以通过语义一致性来化解。OccAny 在解码器部分引入了 Segmentation Forcing 策略：

模型不只预测 3D 点云，还被迫预测与 SAM2 相似的语义特征向量。
通过将这些特征与几何置信度（Confidence Map）加权结合，模型学会了利用语义边界（如车辆轮廓、马路边缘）来约束和规整 3D 几何体的生成。

2.2 Novel View Rendering & TTVA：几何补足的魔术

为了应对单目或有限视角带来的“盲区”，作者开发了一个 Novel View Rendering (NVR) 管线。

原理：基于全局场景存储（Global Scene Memory），模型可以渲染出训练集中从未出现过的虚拟视角。
Test-time View Augmentation (TTVA)：在推理阶段，OccAny 沿着相机轨迹在侧向和旋转方向主动产生大量“虚拟视角”。通过融合这些视角的几何点，原本稀疏的周围环境变得稠密且完整（Geometry Completion）。

模型架构与流程 Figure 2: OccAny 的两阶段训练流程：3D 重建阶段与新视角渲染阶段。

3. 战绩：Zero-shot 也能硬刚 In-domain SOTA

OccAny 在五个大型城市数据集（Waymo, ONCE 等）上训练，并在两个完全未见的测试集（SemanticKITTI 和 Occ3D-NuScenes）上展现了惊人的实力。

单目模式下的跨越式提升：在 SemanticKITTI 上，OccAny 的 IoU 达到了 24.03%，相比之前的最强基线（CUT3R*）提升了 11 个百分点。
对决自监督模型：即便是在目标域内训练的经典自监督方法（如 SelfOcc），其 IoU 也被 OccAny 这位“外来者”超越。

实验结果对比 Figure 3: 占据预测可视化。可以看到 OccAny 在远距离和物体边缘生成的几何体明显比基线模型更加稠密和准确。

4. 深度洞察：为什么这篇工作值得关注？

OccAny 的成功在于它不再试图通过复杂的特定设计（如多摄像头融合 Transformer）来解决 3D 问题，而是回归几何基础。

效率与规模：OccAny 拥有约 6.51 亿参数，虽然是一个大家伙，但相比于 AnySplat 等同类模型，其推理效率大幅提升，训练时间也大大缩短（约 1.5 天 A100 训练）。
Inductive Bias 的剥离：通过舍弃对 Camera Rig 的固定假设，它成为了真正的“通用感知器”。无论是行车记录仪还是多摄像头环视系统，OccAny 都能开箱即用。

5. 总结与展望

OccAny 为下一代自动驾驶感知系统树立了标杆：通用性（Generalization）优先于特定域的过拟合。虽然它在部分指标上仍与全监督模型有差距，但其通过基础模型蒸馏和测试时增强来提升几何真实感的思路，必将启发后续更多的 Spatial Intelligence 研究。

关键 Takeaway：如果你想要一个不挑车、不挑相机、且能脑补遮挡的 3D 感知模型，OccAny 代表了当前技术的前沿。

Find Similar Papers

Try Our Examples

查找其他通过集成基础模型（如 SAM2 或 Depth Anything）来提升自动驾驶 3D 占据预测泛化能力的最新论文。
追溯 MUSt3R 或 Dust3r 等多视角 3D 重建框架的理论来源，并分析本文在处理城市动态场景时对其做了哪些改进？
调研目前有哪些研究正在将测试时视角增强（Test-time View Augmentation）技术应用到机器人导航或端到端驾驶模型中以处理遮挡问题？

Contents

[CVPR 2026] OccAny：突破传感器束缚，开启通用城市 3D 占据预测新篇章

1. TL;DR

2. 1. 痛点：为什么“通用感知”这么难？

3. 2. 核心技术：两大神技驱动泛化

3.1. 2.1 Segmentation Forcing：用语义校准几何

3.2. 2.2 Novel View Rendering & TTVA：几何补足的魔术

4. 3. 战绩：Zero-shot 也能硬刚 In-domain SOTA

5. 4. 深度洞察：为什么这篇工作值得关注？

6. 5. 总结与展望