WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2025(?)] Perceptio:让视觉语言模型拥有“3D 空间感”的显式感知增强技术
总结
问题
方法
结果
要点
摘要

本文提出了 Perceptio,一种通过在自回归序列中直接生成 2D 语义分割(SAM2)和 3D 离散深度(VQ-VAE)Token 来增强感知能力的视觉语言模型(LVLM)。该模型基于 InternVL 构建,在 RefCOCO 系列基准上刷新了 SOTA,并在 HardBLINK 空间推理任务中提升了 10.3% 的准确率。

TL;DR

尽管当前的视觉语言模型(LVLMs)能言善辩,但在面对“谁离摄像头更近”这类简单的 3D 空间问题时,往往表现得像个“盲人”。Amazon 团队提出的 Perceptio 框架通过一种巧妙的方式解决了这一痛点:它要求模型在给出文本答案之前,先在自回归序列中“吐出”代表 2D 语义分割3D 深度信息的特殊 Token。这种类似于“空间思维链”的设计,让模型从纯粹的语义理解跃升到了真正的几何感知。

痛点深挖:LVLM 的“空间贫血症”

目前的 SOTA 模型(如 InternVL, Qwen-VL)在处理图像字幕和通用问答时非常强大,但它们的一个致命短板是 空间理解(Spatial Understanding)

  • Prior Work 的局限:大多数模型试图通过大规模预训练来“隐式”学习空间关系。然而,实验证明这种能力并不会随规模自动涌现。
  • 缺乏显式表征:模型没有 3D 信息的输出接口,无法验证其是否真正理解了场景的几何结构。

核心方法:显式感知 Token 生成

Perceptio 的核心直觉在于:如果模型能先看清物体的边界(2D)并估算出距离(3D),那么它的回答必然会更准确。

1. 感知增强的推理序列

模型不再直接输出答案,而是遵循如下格式: [seg tokens] + [depth tokens] + [text tokens] 这意味着模型必须先进行“物理建模”,再进行“逻辑推理”。

2. 模型架构解析

模型架构图

  • 2D 路径:集成 SAM2。当预测到特殊的 [seg] Token 时,SAM2 解码器会结合视觉特征产生精确的分割掩码。
  • 3D 路径:使用 VQ-VAE 离散化深度图。模型学习生成一组索引,这些索引对应预定义的深度码本(Codebook)。
  • 软合并重构(Soft Depth Reconstruction):为了让离散生成的 Token 过程可导,作者使用了 Softmax 权重合并码本嵌入,确保了端到端的深度监督训练。

实验战绩:全方位的空降式领先

Perceptio 在多个维度上展现了压倒性的优势:

  • Referring Segmentation (RES):在 RefCOCO 等基准上全面超越了 Sa2VA,证明了 3D 深度信息对 2D 定位也有显著加持。
  • HardBLINK (空间推理金标准):在极难的相对深度判断任务中,Perceptio-8B 比之前的 SOTA (LLaVA-Aurora) 高出 10.3%。

实验结果对比

消融分析:谁才是关键?

通过消融实验,作者发现了一个有趣的现象:

  • 移除深度 Token:HardBLINK 准确率直接崩塌(从 71% 跌至 45%)。
  • 移除分割 Token:通用的 VQA 能力会下降。
  • 结论:2D 语义和 3D 几何是互补的,缺一不可。

深度洞察:为什么显式预测有效?

这实际上是在多模态领域践行了 Chain-of-Thought (CoT) 的思想。在文本 LLM 中,我们要求模型“一步步想”;在感知 LVLM 中,Perceptio 要求模型“一步步看”。

当模型必须显式地预测深度 Token 时,它实际上被迫在注意力机制中分配更多的权重给图像的几何纹理。这种 Inductive Bias(归纳偏置) 弥补了传统 Transformer 在结构化数据理解上的短板。

总结与展望

Perceptio 证明了:感知不是推理的后置插件,而应该是推理的前置基础。

局限性

  1. 生成深度 Token 会引入额外的序列长度,导致推理开销略有增加。
  2. 对高质量教师模型(如 Depth Anything V2)有较强依赖。

未来方向:这种将感知信号 Token 化的思路,非常有潜力扩展到视频领域(如通过 Token 保持跨帧的几何一致性)或机器人具身智能领域(直接生成动作相关的空间 Token)。


本文由资深学术技术主编为您解读。获取更多 AI 前沿论文分析,请关注相关专题。

发现相似论文

试试这些示例

  • 查找最近其他尝试在 Transformer 自回归序列中引入非文本模态 Token(如坐标、热图或深度)以增强空间推理的论文。
  • 哪篇论文最早提出了在 LVLM 中使用 VQ-VAE 离散化连续视觉信号,Perceptio 的“软合并”技术与该方法有何本质区别?
  • 有哪些研究正尝试将这种基于感知 Token 的方法扩展到视频理解任务中,以解决跨帧的时间一致性问题?
目录
[CVPR 2025(?)] Perceptio:让视觉语言模型拥有“3D 空间感”的显式感知增强技术
1. TL;DR
2. 痛点深挖:LVLM 的“空间贫血症”
3. 核心方法:显式感知 Token 生成
3.1. 1. 感知增强的推理序列
3.2. 2. 模型架构解析
4. 实验战绩:全方位的空降式领先
4.1. 消融分析:谁才是关键?
5. 深度洞察:为什么显式预测有效?
6. 总结与展望