WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
VideoRouter:查询自适应双路由——破解长视频理解的“计算墙”
总结
问题
方法
结果
要点
摘要

本文提出了 VideoRouter,一个面向长视频理解的查询自适应双路由(Query-Adaptive Dual-Routing)框架。该方法通过语义路由和图像路由协同工作,在 InternVL 基础上实现了基于预算的视觉 Token 动态分配,显著降低了长视频推理的计算开销。

TL;DR

在视频大模型领域,长视频带来的“Token 爆炸”一直是业界的痛点。北京大学的研究团队提出了 VideoRouter,这是一种查询自适应的双路由框架。它通过语义和图像两个维度的路由决策,让模型学会“看碟下菜”:只在对回答问题关键的帧上投入高分辨率预算,而对其余场景进行极致压缩。在保证效果的前提下,Token 使用量骤降 67.9%。

背景定位:从“盲目压缩”到“预算分配”

传统的视频压缩方案(如 Uniform Pooling)不论问题是什么,都对每一帧进行相同的下采样。这在处理包含复杂细节的长视频时非常吃亏:如果问题关注某个特定的动作细节,全局模糊化会导致信息丢失;如果问题关注全局趋势,全量输入又会导致显存崩溃(OOM)。

VideoRouter 的核心直觉(Insight)是:长视频理解本质上是一个受限预算下的证据分配问题

技术架构:双路由协同作战

VideoRouter 构建在强大的 InternVL 基础之上,引入了两个关键模块:

1. 语义路由器 (Semantic Router)

它像一个总调度员,首先分析用户的问题(Lexical Analysis)。

  • Global 策略:如果问题涉及全片概括,则采用均匀的时间覆盖。
  • Fragment 策略:如果问题涉及特定事件,则激活下游的图像路由器。

2. 图像路由器 (Image Router)

这是本文最精妙的设计。作者没有引入沉重的额外参数,而是直接复用(Reuse)了多模态 LLM 的前四层解码器作为特征提取器。

  • 它会计算每一帧与当前 Query 的相关性概率
  • 相关的帧(Critical Frames)保留高分辨率 ()。
  • 不相关的帧(Irrelevant Frames)采用激进的池化压缩 () 甚至剔除。

模型架构图 图 1:VideoRouter 框架总览,展示了从 Query 到策略选择,再到帧级别动态分配的完整流程。

预算敏感的动态分配算法

在推理阶段,VideoRouter 会根据 LLM 的 max_length 动态计算当前可用的视觉 Token 余额

  • 优先保障关键上下文:如果预算不足,优先保住那些 的帧。
  • 保底时间覆盖:在有余额的情况下,填充低分辨率的背景帧,确保模型不丢失基本的时序脉络。

实验战绩:更少,但更强

在 VideoMME、LongVideoBench 等多个硬核榜单上,VideoRouter 展现出了极高的“性价比”。

  • 性能 vs 效率:在占用更少视觉 Token 的情况下,其准确率甚至超过了全量输入(Dense)的基线,这说明去冗余后的输入反而减少了 LLM 的注意力噪音。
  • 迁移能力:该方法在 Qwen2.5-VL 上同样生效,证明了架构的普适性。

实验结果对比 图 2:在 Video-MME 上的表现,VideoRouter (红点) 在准确率与 Token 消耗的帕累托前沿上表现优异。

深度洞察

VideoRouter 的成功揭示了一个重要的性能折衷:早期的多模态融合层对于证据识别至关重要。 实验显示(见下图),使用前 4 层作为路由器是性能与延迟的黄金分割点。如果层数太浅,模型无法理解复杂的跨模态语义;如果太深,路由本身的开销就会抵消掉 Token 压缩带来的收益。

消融实验图 图 3:路由准确率与延迟随提取层数 的变化曲线。

总结与局限

VideoRouter 通过一种极具工程美感的方式(复用层、双级路由、动态预算优化)解决了长视频处理的效率问题。

局限性:目前该方法主要针对离线长视频(Offline Video),对于需要流式处理或实时反馈的场景,如何进行滑窗式的动态路由仍是一个开放课题。此外,路由器的判断受限于 Base VLM 的理解能力,如果底座模型漏掉了关键信号,路由也会随之失效。

这篇论文为未来的高效视频理解研究指明了方向:在 Token 预算日益昂贵的今天,聪明的模型应该学会在行动之前,先动脑筋决定“看什么”。

发现相似论文

试试这些示例

  • 查找最近一年中应用类似“动态 Token 预算分配”策略解决多模态大模型长序列效率问题的相关论文。
  • 哪篇论文最早利用 LLM 的早期层作为视觉-文本相关性打分器,本文在此基础上做了哪些针对视频语义特征的改进?
  • 目前有哪些研究尝试将查询自适应的路由机制扩展到实时视频流理解或在线推理任务中?
目录
VideoRouter:查询自适应双路由——破解长视频理解的“计算墙”
1. TL;DR
2. 背景定位:从“盲目压缩”到“预算分配”
3. 技术架构:双路由协同作战
3.1. 1. 语义路由器 (Semantic Router)
3.2. 2. 图像路由器 (Image Router)
4. 预算敏感的动态分配算法
5. 实验战绩:更少,但更强
6. 深度洞察
7. 总结与局限