本文提出了 VideoRouter,一个面向长视频理解的查询自适应双路由(Query-Adaptive Dual-Routing)框架。该方法通过语义路由和图像路由协同工作,在 InternVL 基础上实现了基于预算的视觉 Token 动态分配,显著降低了长视频推理的计算开销。
TL;DR
在视频大模型领域,长视频带来的“Token 爆炸”一直是业界的痛点。北京大学的研究团队提出了 VideoRouter,这是一种查询自适应的双路由框架。它通过语义和图像两个维度的路由决策,让模型学会“看碟下菜”:只在对回答问题关键的帧上投入高分辨率预算,而对其余场景进行极致压缩。在保证效果的前提下,Token 使用量骤降 67.9%。
背景定位:从“盲目压缩”到“预算分配”
传统的视频压缩方案(如 Uniform Pooling)不论问题是什么,都对每一帧进行相同的下采样。这在处理包含复杂细节的长视频时非常吃亏:如果问题关注某个特定的动作细节,全局模糊化会导致信息丢失;如果问题关注全局趋势,全量输入又会导致显存崩溃(OOM)。
VideoRouter 的核心直觉(Insight)是:长视频理解本质上是一个受限预算下的证据分配问题。
技术架构:双路由协同作战
VideoRouter 构建在强大的 InternVL 基础之上,引入了两个关键模块:
1. 语义路由器 (Semantic Router)
它像一个总调度员,首先分析用户的问题(Lexical Analysis)。
- Global 策略:如果问题涉及全片概括,则采用均匀的时间覆盖。
- Fragment 策略:如果问题涉及特定事件,则激活下游的图像路由器。
2. 图像路由器 (Image Router)
这是本文最精妙的设计。作者没有引入沉重的额外参数,而是直接复用(Reuse)了多模态 LLM 的前四层解码器作为特征提取器。
- 它会计算每一帧与当前 Query 的相关性概率 。
- 相关的帧(Critical Frames)保留高分辨率 ()。
- 不相关的帧(Irrelevant Frames)采用激进的池化压缩 () 甚至剔除。
图 1:VideoRouter 框架总览,展示了从 Query 到策略选择,再到帧级别动态分配的完整流程。
预算敏感的动态分配算法
在推理阶段,VideoRouter 会根据 LLM 的 max_length 动态计算当前可用的视觉 Token 余额 。
- 优先保障关键上下文:如果预算不足,优先保住那些 的帧。
- 保底时间覆盖:在有余额的情况下,填充低分辨率的背景帧,确保模型不丢失基本的时序脉络。
实验战绩:更少,但更强
在 VideoMME、LongVideoBench 等多个硬核榜单上,VideoRouter 展现出了极高的“性价比”。
- 性能 vs 效率:在占用更少视觉 Token 的情况下,其准确率甚至超过了全量输入(Dense)的基线,这说明去冗余后的输入反而减少了 LLM 的注意力噪音。
- 迁移能力:该方法在 Qwen2.5-VL 上同样生效,证明了架构的普适性。
图 2:在 Video-MME 上的表现,VideoRouter (红点) 在准确率与 Token 消耗的帕累托前沿上表现优异。
深度洞察
VideoRouter 的成功揭示了一个重要的性能折衷:早期的多模态融合层对于证据识别至关重要。 实验显示(见下图),使用前 4 层作为路由器是性能与延迟的黄金分割点。如果层数太浅,模型无法理解复杂的跨模态语义;如果太深,路由本身的开销就会抵消掉 Token 压缩带来的收益。
图 3:路由准确率与延迟随提取层数 的变化曲线。
总结与局限
VideoRouter 通过一种极具工程美感的方式(复用层、双级路由、动态预算优化)解决了长视频处理的效率问题。
局限性:目前该方法主要针对离线长视频(Offline Video),对于需要流式处理或实时反馈的场景,如何进行滑窗式的动态路由仍是一个开放课题。此外,路由器的判断受限于 Base VLM 的理解能力,如果底座模型漏掉了关键信号,路由也会随之失效。
这篇论文为未来的高效视频理解研究指明了方向:在 Token 预算日益昂贵的今天,聪明的模型应该学会在行动之前,先动脑筋决定“看什么”。
