PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

[CVPR 2026] PerceptionComp：拒绝“一眼看穿”，多模态模型需要真正的视觉深思

总结

问题

方法

结果

要点

摘要

PerceptionComp 是一个专门为长程、以感知为核心的视频推理任务设计的基准测试集。它包含 1,114 个高质量的人工标注五选一问题，涵盖 279 个高复杂度视频，旨在评估多模态大模型（MLLM）在处理需要反复回看、多步骤证据收集任务时的性能。

TL;DR

清华、南洋理工与华盛顿大学联合发布了 PerceptionComp，这是一个针对 MLLM 的“地狱级”视频感知基准。它不同于以往靠长视频刷记忆力的测试，而是通过高密度的场景快照和多步组合逻辑，强制模型必须像人类专家一样“反复回看”才能找到答案。目前最尖端的模型（如 Gemini-3-Flash, GPT-o3）在此基准上的准确率均徘徊在 45% 左右，揭示了当前 AI 在细粒度视觉推理上的巨大鸿沟。

背景定位：当逻辑推理遇到“视觉干扰”

在 LLM 领域，OpenAI 的 o1 系列证明了通过增加“思考时间”可以解决复杂的数理逻辑。但在视频理解领域，单纯的文字思考有用吗？

作者指出，目前的视频基准测试往往无法区分模型是真的“看懂了”还是靠“猜中了”。

痛点一：视频太简单，看一眼就能概括。
痛点二：任务太逻辑，视觉输入变成了符号背景。
PerceptionComp 的核心直觉：真正的视觉智能应该体现为“感知驱动的组合推理”。你需要先识别物体 A，跟踪它到第 3 分钟，观察它与物体 B 的空间关系，再判断 B 的颜色。每一个中间环节出错，整个推理链条就会崩塌。

方法论详解：如何制造“无法作弊”的难题

为了确保题目足够难且无法靠语言先验（Language Prior）解决，PerceptionComp 在两个维度发力：

1. 场景复杂度筛选

利用 SAM2 进行实例分割统计，结合 RAFT 计算光流。只有那些物体极多、运动剧烈、场景切换频繁的视频（如城市漫步、极限运动、游戏直播）才会被入选。

2. 组合推理设计

每个问题被拆解为多个 Subconditions（子条件），并分为两类逻辑：

合取逻辑 (Conjunctive)：你要找的人必须符合“穿红衣服”且“拿咖啡杯”且“在两辆车之间”。
顺序逻辑 (Sequential)：先找到 A，看 A 做了什么动作，然后判断动作指向的 B 是什么颜色。

模型架构与流程 图 1：PerceptionComp 的标注流程，通过组合多种感知技能（语义、空间、时序）构建高难度问题。

实验结果：模型集体的“滑铁卢”

研究团队评估了包括 Gemini-3、GPT-5、Qwen3-VL 在内的数十个闭源及开源模型。结果令人震惊：

人类表现：专家反复观看可获 100% 准确率。单次观看（不许重看）的人类表现暴跌至 18.97%（接近盲猜）。
模型表现：目前的 SOTA 模型最高仅为 45.96%。更有趣的是，轻量级的 Gemini-3-Flash 反而超过了 Pro 版本。作者认为这是因为 Pro 版容易过度关注无关细节，产生“逻辑幻觉”，而 Flash 版在处理长序列时逻辑更纯粹（Streamlining Effect）。

实验结果对比 表 1：各大主流模型在 PerceptionComp 上的表现。可以看出，即便是最强的模型在 Level 3 难度下的表现也极差。

关键洞察：

帧数决定感知上限：增加输入帧数（从 16 帧到 64 帧）能稳定提升模型准确率，说明模型需要更细碎的视觉证据。
Thinking 越多效果越好：对于 Gemini-2.5-Flash 等模型，分配更多的计算 Token 能够显著改善推理质量，这证明了 Test-time Scaling 在视觉领域同样有效。

深度分析：为什么 AI 依然很“瞎”？

通过对 Gemini-3 的失败案例分析，作者发现大部分错误发生在推理链的中段。

空间理解错误：60% 的中段失败源于对 3D 空间关系的误解。模型能看到物体，但分不清“左边”和“后面”。
幻觉级联：由于是多步推理，模型在第一步识别错了对象，后续的思考哪怕逻辑再严密，也只是在错误的道路上渐行渐远。

错误案例分析 图 2：模型推理失败的典型案例，由于无法维持长期的视觉变量绑定，导致最后一步“指鹿为马”。

总结与启示

PerceptionComp 的出现不仅提供了一个更难的榜单，它实际上在拷问现在的模型设计：我们是否过度依赖语言层面的 CoT（思维链），而忽略了视觉层面的“反复寻证”能力？

对于未来的多模态研究，仅仅堆叠参数是不够的。如何让模型具备真正的“视觉搜索”直觉，在长视频中精准地定位并修正每一个感知的 Subcondition，才是通往视频 AGI 的关键钥匙。

发现相似论文

试试这些示例

查找最近其他试图解决多模态大模型在长视频推理中“感知瓶颈”问题的相关论文。
由哪篇论文最早系统性地定义了视频推理中的“测试时缩放 (Test-time Scaling)”概念，本文如何将其应用于感知任务？
有哪些研究探讨了将 SAM2 或其他动态分割模型集成到 MLLM 推理流中以提升细粒度视觉对应能力？

[CVPR 2026] PerceptionComp：拒绝“一眼看穿”，多模态模型需要真正的视觉深思

1. TL;DR

2. 背景定位：当逻辑推理遇到“视觉干扰”

3. 方法论详解：如何制造“无法作弊”的难题

3.1. 1. 场景复杂度筛选

3.2. 2. 组合推理设计

4. 实验结果：模型集体的“滑铁卢”

4.1. 关键洞察：

5. 深度分析：为什么 AI 依然很“瞎”？

6. 总结与启示