Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

[CVPR 2025(?)] Perceptio：让视觉语言模型拥有“3D 空间感”的显式感知增强技术

总结

问题

方法

结果

要点

摘要

本文提出了 Perceptio，一种通过在自回归序列中直接生成 2D 语义分割（SAM2）和 3D 离散深度（VQ-VAE）Token 来增强感知能力的视觉语言模型（LVLM）。该模型基于 InternVL 构建，在 RefCOCO 系列基准上刷新了 SOTA，并在 HardBLINK 空间推理任务中提升了 10.3% 的准确率。

TL;DR

尽管当前的视觉语言模型（LVLMs）能言善辩，但在面对“谁离摄像头更近”这类简单的 3D 空间问题时，往往表现得像个“盲人”。Amazon 团队提出的 Perceptio 框架通过一种巧妙的方式解决了这一痛点：它要求模型在给出文本答案之前，先在自回归序列中“吐出”代表 2D 语义分割和 3D 深度信息的特殊 Token。这种类似于“空间思维链”的设计，让模型从纯粹的语义理解跃升到了真正的几何感知。

痛点深挖：LVLM 的“空间贫血症”

目前的 SOTA 模型（如 InternVL, Qwen-VL）在处理图像字幕和通用问答时非常强大，但它们的一个致命短板是 空间理解（Spatial Understanding）。

Prior Work 的局限：大多数模型试图通过大规模预训练来“隐式”学习空间关系。然而，实验证明这种能力并不会随规模自动涌现。
缺乏显式表征：模型没有 3D 信息的输出接口，无法验证其是否真正理解了场景的几何结构。

核心方法：显式感知 Token 生成

Perceptio 的核心直觉在于：如果模型能先看清物体的边界（2D）并估算出距离（3D），那么它的回答必然会更准确。

1. 感知增强的推理序列

模型不再直接输出答案，而是遵循如下格式： [seg tokens] + [depth tokens] + [text tokens] 这意味着模型必须先进行“物理建模”，再进行“逻辑推理”。

2. 模型架构解析

模型架构图

2D 路径：集成 SAM2。当预测到特殊的 [seg] Token 时，SAM2 解码器会结合视觉特征产生精确的分割掩码。
3D 路径：使用 VQ-VAE 离散化深度图。模型学习生成一组索引，这些索引对应预定义的深度码本（Codebook）。
软合并重构（Soft Depth Reconstruction）：为了让离散生成的 Token 过程可导，作者使用了 Softmax 权重合并码本嵌入，确保了端到端的深度监督训练。

实验战绩：全方位的空降式领先

Perceptio 在多个维度上展现了压倒性的优势：

Referring Segmentation (RES)：在 RefCOCO 等基准上全面超越了 Sa2VA，证明了 3D 深度信息对 2D 定位也有显著加持。
HardBLINK (空间推理金标准)：在极难的相对深度判断任务中，Perceptio-8B 比之前的 SOTA (LLaVA-Aurora) 高出 10.3%。

实验结果对比

消融分析：谁才是关键？

通过消融实验，作者发现了一个有趣的现象：

移除深度 Token：HardBLINK 准确率直接崩塌（从 71% 跌至 45%）。
移除分割 Token：通用的 VQA 能力会下降。
结论：2D 语义和 3D 几何是互补的，缺一不可。

深度洞察：为什么显式预测有效？

这实际上是在多模态领域践行了 Chain-of-Thought (CoT) 的思想。在文本 LLM 中，我们要求模型“一步步想”；在感知 LVLM 中，Perceptio 要求模型“一步步看”。

当模型必须显式地预测深度 Token 时，它实际上被迫在注意力机制中分配更多的权重给图像的几何纹理。这种 Inductive Bias（归纳偏置） 弥补了传统 Transformer 在结构化数据理解上的短板。

总结与展望

Perceptio 证明了：感知不是推理的后置插件，而应该是推理的前置基础。

局限性：

生成深度 Token 会引入额外的序列长度，导致推理开销略有增加。
对高质量教师模型（如 Depth Anything V2）有较强依赖。

未来方向：这种将感知信号 Token 化的思路，非常有潜力扩展到视频领域（如通过 Token 保持跨帧的几何一致性）或机器人具身智能领域（直接生成动作相关的空间 Token）。

本文由资深学术技术主编为您解读。获取更多 AI 前沿论文分析，请关注相关专题。

发现相似论文

试试这些示例

查找最近其他尝试在 Transformer 自回归序列中引入非文本模态 Token（如坐标、热图或深度）以增强空间推理的论文。
哪篇论文最早提出了在 LVLM 中使用 VQ-VAE 离散化连续视觉信号，Perceptio 的“软合并”技术与该方法有何本质区别？
有哪些研究正尝试将这种基于感知 Token 的方法扩展到视频理解任务中，以解决跨帧的时间一致性问题？

[CVPR 2025(?)] Perceptio：让视觉语言模型拥有“3D 空间感”的显式感知增强技术

1. TL;DR

2. 痛点深挖：LVLM 的“空间贫血症”

3. 核心方法：显式感知 Token 生成

3.1. 1. 感知增强的推理序列

3.2. 2. 模型架构解析

4. 实验战绩：全方位的空降式领先

4.1. 消融分析：谁才是关键？

5. 深度洞察：为什么显式预测有效？

6. 总结与展望