Adaptive Greedy Frame Selection for Long Video Understanding

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Adaptive Greedy Frame Selection for Long Video Understanding

Adaptive Greedy Frame Selection：突破长视频理解的“冗余”与“覆盖”困局

总结

问题

方法

结果

要点

摘要

本文提出了 Adaptive Greedy Frame Selection，一种针对长视频理解的即插即用型帧选择方法。通过在固定预算下联合优化查询相关性和语义代表性，并在 MLVU 榜单上超越了均匀采样和 AKS 等强基线，显著提升了大型视觉语言模型（VLM）的处理效率。

TL;DR

在长视频理解中，如何用最少的帧传递最关键的信息？普渡大学的研究者提出了一种自适应贪婪帧选择方法。它不仅能够智能调配查询相关性（Relevance）与语义覆盖度（Coverage），还能根据问题的类型（如找细节还是总结中心思想）自动切换筛选逻辑。实验证明，该方法在 MLVU 榜单上显著优于传统的均匀采样和最新的 SOTA 采样算法。

背景定位：不仅仅是“抽帧”那么简单

随着大视觉语言模型（VLMs）的发展，处理数十分钟甚至数小时的视频成为可能。然而，计算资源的限制（VRAM 和 Context Window）迫使我们必须进行Token Reduction（Token 减枝）。

目前的策略主要存在两个痛点：

冗余坍塌 (Redundancy Collapse)：如果只看相关性，系统会选出一堆长得几乎一样的关键帧，白白浪费了 Token 位。
覆盖坍塌 (Coverage Collapse)：如果只看多样性，系统为了“撒大网”可能会漏掉虽然局部但决定性的瞬间（Decisive Moments）。

核心直觉：亚模性（Submodularity）的优雅应用

作者认为，帧选择不应该是简单的 Top-K 排序，而是一个集合优化问题。他们设计了一个目标函数 $F (S) = α R (S) + β C (S)$ ：

$R (S)$ (Relevance)：利用 SigLIP 嵌入，确保选出的帧跟用户的问题对得上。
$C (S)$ (Coverage)：利用 DINOv2 嵌入，通过 Facility-Location 算法确保选出的帧能代表整个视频的语义分布。

最精妙的地方在于，这个函数是**单调且亚模（Monotone Submodular）**的。在数学上，这意味着“边际回报递减”。这使得我们可以通过简单的贪婪算法（Greedy Algorithm）获得至少 $(1 - 1/ e)$ 的最优解保证。

模型架构与流程 图 1：算法通过 SigLIP 和 DINOv2 双空间嵌入，构建候选池并进行贪婪筛选。

方法论：问题感知的智能路由

并不是所有问题都需要同样的筛选逻辑。

总结类问题：需要更高的 Coverage（覆盖度），看遍全片才能总结。
寻物类问题 (Needle-in-a-haystack)：需要更高的 Relevance（相关性），盯着那一秒钟看最重要。

为此，作者训练了一个轻量级的文本分类器（准确率达 97.7%），将问题自动分发到四种策略：纯相关性、纯覆盖度、相关性导向、覆盖度导向。

分类器性能 图 2：问题分类器的训练曲线与混淆矩阵，显示了极高的分类准确性。

实验结果：用更少的帧，干更漂亮的活

在 MLVU 基准测试中，研究者对比了 Uniform Sampling（均匀采样）和 AKS (CVPR 2025)。

核心发现：

低预算优势：在仅使用 10-20 帧的情况下，该方法性能提升最显著，这意味着它能极大地压缩推理成本而不损失精度。
始终领先：随着帧数增加，该方法的性能曲线（下图深蓝/绿色线）始终压制基线模型。

实验结果对比 图 3：不同帧预算下的准确率对比，显示了自适应策略（Optimized）的统治力。

总结与启示

这篇论文告诉我们，解决长视频理解不一定非得堆算力或改模型架构，在数据入口处进行“高质量的质量把控”可能是性价比更高的方式。通过将数学上的亚模优化与 NLP 领域的问题分类相结合，Adaptive Greedy Frame Selection 为智能 Token 压缩提供了一个极具吸引力的范式。

局限性：目前该方法依赖于预计算的特征池（1 FPS），对于实时性要求极高的场景（如实时监控报警）可能仍有待优化。

Takeaway：未来的 VLM 视频应用中，一个“懂问题”的采样器可能比一个更大的模型更管用。

发现相似论文

试试这些示例

查找最近一年内其他利用亚模函数（Submodular Function）优化 Transformer 视觉 Token 选择的论文。
哪篇论文最早在视频领域提出了 Facility-Location 覆盖目标，本文提出的贪婪近似算法与其有何改进？
探索除了 MLVU 之外，该自适应帧选择方法在 EgoSchema 或 Video-MME 等其他长视频基准上的迁移表现研究。

Adaptive Greedy Frame Selection：突破长视频理解的“冗余”与“覆盖”困局

1. TL;DR

2. 背景定位：不仅仅是“抽帧”那么简单

3. 核心直觉：亚模性（Submodularity）的优雅应用

4. 方法论：问题感知的智能路由

5. 实验结果：用更少的帧，干更漂亮的活

6. 总结与启示