本文提出了 VLMaxxing 框架,通过引入 C-PERSIST(后摄取状态复用)、C-VISION(首过视觉剪枝)和 C-CEILING(阶段份额天花板)三大机制,实现了针对 Video-VLM 的训练无关(Training-free)去重计算。该方法在 Qwen2.5-VL-7B 上将后续查询延迟降低了 14.90–35.92 倍,同时在 VideoMME 等基准测试中保持了零配对漂移。
TL;DR
在视频理解任务中,模型往往在已经知道场景稳定的情况下,依然一遍又一遍地重新扫描那些没有变化的背景。本文提出了一套名为 VLMaxxing 的方法论,通过 C-PERSIST 状态复用和 C-VISION 视觉剪枝,在不进行任何重训练(Training-free)的前提下,实现后续查询延迟最高 35.92 倍 的缩减,同时确保回答的准确性与原始模型高度一致。
痛点深挖:为何视频模型总是“记不住”?
当前的 Video-VLM(视频视觉语言模型)存在一个巨大的效率陷阱:重复支付视觉账单。例如,一段工厂机器人的视频,背景墙面从始至终没动过,但模型每处理一帧,都会重新进行一次 Vision Tower 编码和 Prefill 预填充。
以往的方法要么需要重新训练模型以适应稀疏输入,要么在复用 KV Cache 时会导致模型陷入 Cache Basin(缓存盆地)——即随着对话回合增加,模型开始随机输出乱码或陷入逻辑死循环。
核心机制:自适应修复与阶段天花板
1. C-PERSIST:后摄取状态复用的奇迹
作者发现,视频 ingest(摄取)后的重复提问是加速比最高的环节。通过自适应修复策略(Selective Re-prefill),模型仅刷新最新的一帧(K=1)作为“视觉尾部”,并继承之前的修复状态。这避免了全量重计算,同时通过打破旧缓存的静止惯性,消除了漂移。

2. C-CEILING:清醒的算数准则
这是一个极具学术清醒度的贡献。作者指出:如果视觉塔编码只占总耗时的 10%,那么即便你把视觉塔加速 100 倍,端到端的提升也微乎其微。 这个公式成为了衡量所有“加速组件”真实价值的标尺。
3. C-VISION:首过视觉剪枝
对于新视频,作者在视觉编码器的内部层实施剪枝,只保留最关键的特征块。在 Gemma 模型上,这一步在 32 帧配置下实现了 1.316x 的纯系统加速。
实验与战绩
在 VideoMME 基准测试中,VLMaxxing 展示了极强的稳定性。
- 性能提升:在 Qwen2.5-VL-7B 上,后续查询的延迟从数秒缩减到了 sub-second(亚秒级)。
- 零漂移承诺:在大规模配对测试中,VLMaxxing 的回答与全量 Dense 计算的回答完全一致(Zero Paired Drift)。

深度洞察:迈向“VLM 原生媒体”
本文不仅仅是在修补现有的 VLM 运行时(Runtime),它提出了一个更宏大的愿景:未来的视频格式不应只是 RGB 像素块的堆叠。
如果媒体流本身就能告诉模型:“这几个块没变”、“这几个块是平移运动”、“这里出现了新物体”,那么模型将能把宝贵的计算资源(FLOPs)全部投入到那些真正涉及逻辑推理的关键帧上。
局限性与展望
尽管 VLMaxxing 在相同位置复用上表现完美,但在涉及相机剧烈晃动(Egomotion)或频繁切镜的视频中,其表现仍受限于基本的像素比对逻辑。未来的研究方向将围绕“运动补偿的特征复用”和“传感器融合缓存”展开。
总结
VLMaxxing 证明了:通过严密的系统工程和对时间冗余的深度利用,即便是不动权重的 Frozen Model,也能在视频处理效率上实现数量级的飞跃。这不仅是学术上的 SOTA,更是迈向实时视频交互助手的关键一步。
