OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

[CVPR 2026] OpenSpatial：从“空间近视”到 3D 洞察，重塑大模型的空间智能基础设施

总结

问题

方法

结果

要点

摘要

本文推出了 OpenSpatial，一个旨在提升多模态大模型（MLLM）空间智能的开源数据引擎。该引擎采用 3D 框（3D Bounding Box）为核心表征，通过自动化 3D 提升（3D Lifting）技术构建了包含 300 万个样本的 OpenSpatial-3M 数据集，显著提升了模型在空间度量、关系推理及多视图一致性等任务上的 SOTA 表现。

TL;DR

尽管当前的 GPT-4 或 InternVL 等多模态模型在图像描述上已经炉火纯青，但一旦涉及“这两个椅子之间隔了多少米？”或“从另一个视角看，杯子在碗的哪一边？”这类 3D 空间问题时，往往会表现出严重的空间近视（Spatial Myopia）。本文介绍的 OpenSpatial 是一个开源的“数据引擎”，它通过将 2D 图像“提升”到 3D 空间，构建了 300 万量级的 OpenSpatial-3M 数据集。实验证明，该方法能让主流开源模型在空间推理任务上实现最高 19% 的相对性能提升。

1. 痛点：为什么 MLLM 是“空间文盲”？

目前大多数视觉语言模型（VLM）是在 2D 图像-文本对上训练的。它们学习的是像素间的统计相关性，而不是真实的物理世界几何结构。这种维度缺失导致了两个系统性障碍：

缺乏 3D 一致性：模型无法理解不同视角下同一个物体的对应关系。
黑盒生产管线：目前性能较好的空间数据集（如 SenseNova-SI）往往只发布静态数据，其生成引擎并不透明，研究者无法通过调整参数来探究“究竟是什么数据特征提升了空间智能”。

2. 核心直觉：以 3D Box 为锚点

OpenSpatial 的核心 Insight 在于：放弃简单的 2D 全局描述，转向以 3D 定向边界框（OBB）为核心的结构化表征。

通过 OBB，引擎为场景中的每个物体建立了一个全球坐标系下的“身份证明”。无论相机如何移动，物体的长宽高、物理位置和朝向都是恒定的。这种**视角不变性（Viewpoint-invariant）**是模型从“看图像”进化到“感知空间”的关键。

模型架构与数据管线 图 1：OpenSpatial 的数据处理流程：从 3D 框生成到属性提取，再到场景图驱动的 QA 合成

3. 方法论：OpenSpatial 是如何炼成的？

OpenSpatial 的工作流分为三个阶段：

3D Lifting（3D 提升）：针对缺乏深度信息的互联网视频，引擎利用分割模型（SAM）和多视图几何，自动将 2D 目标提升为 3D 框，避免了昂贵的人工标注。
属性中心化映射：通过深度校验（Depth-based validation），剔除掉那些虽然在视野内但被完全遮挡的“假阳性”框，解决模型幻觉的基础数据问题。
五大任务层次：
- 空间度量 (SM)：回答绝对尺寸和距离。
- 空间关系 (SR)：判断物体间的拓扑位置。
- 相机感知 (CP)：理解相机的位姿变化。
- 多视图一致性 (MC)：跨视角重识别关键点或物体。
- 场景推理 (SAR)：进行路径规划和高阶逻辑推理。

任务分类示例 图 2：OpenSpatialCover 的五个核心任务维度及其子任务示例

4. 实验战绩：全线突破 SOTA

OpenSpatial 在多个极具挑战性的 Benchmark 上刷新了纪录。

| 模型基座 | 3D 平均分 | BLINK (空间感知) | MMSI (多图空间) | | :--- | :---: | :---: | :---: | | Qwen3-VL-8B (Baseline) | 56.7 | 66.1 | 28.1 | | OpenSpatial-Qwen3-8B | 62.1 (+5.4) | 68.2 | 41.9 (+13.8) |

深度分析 (Ablation Study)：实验显示，单纯堆叠数据量（Scaling）虽然有用，但任务多样性对空间智能的增益更为显著。如图 5 所示，引入“相机感知（CP）”任务能直接带动模型理解视角变化，而“空间度量（SM）”则赋予了模型类似卷尺的定量能力。

实验结果对比 图 3：OpenSpatial 在各主流基准上的性能表现，蓝色括号内为相较于基线的提升

5. 局限性与展望

尽管在室内和受限场景下表现优异，OpenSpatial 在极端户外环境和复杂桌面微观场景下的提升仍有边际效应。作者指出，未来的方向是将此引擎扩展至更大规模的野外（Wild）视频数据，并与强化学习（RL）结合，让模型在模拟器中通过交互来完善其空间认知。

总结

OpenSpatial 的真正价值不在于那 300 万条数据，而在于它开源了一套可复现的、以几何原理为指导的生产管线。这为具身智能（Embodied AI）领域中的视觉感知从 2D 向 3D 跃迁提供了坚实的底层支撑。

发现相似论文

试试这些示例

查找最近其他试图通过引入 3D 表征或几何约束来增强多模态大模型空间感知能力的 SOTA 论文。
哪篇论文最早在视觉指令微调（Visual Instruction Tuning）中引入了 Oriented Bounding Box (OBB) 作为监督信号？
有哪些研究探讨了将 OpenSpatial 这种 3D 数据生产引擎应用到机器人导航（Navigation）或视觉语言导航（VLN）任务中？

[CVPR 2026] OpenSpatial：从“空间近视”到 3D 洞察，重塑大模型的空间智能基础设施

1. TL;DR

2. 1. 痛点：为什么 MLLM 是“空间文盲”？

3. 2. 核心直觉：以 3D Box 为锚点

4. 3. 方法论：OpenSpatial 是如何炼成的？

5. 4. 实验战绩：全线突破 SOTA

6. 5. 局限性与展望

7. 总结