VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models

VLMaxxing：让视频模型停止为“背景板”支付重复计算费

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 VLMaxxing 框架，通过引入 C-PERSIST（后摄取状态复用）、C-VISION（首过视觉剪枝）和 C-CEILING（阶段份额天花板）三大机制，实现了针对 Video-VLM 的训练无关（Training-free）去重计算。该方法在 Qwen2.5-VL-7B 上将后续查询延迟降低了 14.90–35.92 倍，同时在 VideoMME 等基准测试中保持了零配对漂移。

TL;DR

在视频理解任务中，模型往往在已经知道场景稳定的情况下，依然一遍又一遍地重新扫描那些没有变化的背景。本文提出了一套名为 VLMaxxing 的方法论，通过 C-PERSIST 状态复用和 C-VISION 视觉剪枝，在不进行任何重训练（Training-free）的前提下，实现后续查询延迟最高 35.92 倍 的缩减，同时确保回答的准确性与原始模型高度一致。

痛点深挖：为何视频模型总是“记不住”？

当前的 Video-VLM（视频视觉语言模型）存在一个巨大的效率陷阱：重复支付视觉账单。例如，一段工厂机器人的视频，背景墙面从始至终没动过，但模型每处理一帧，都会重新进行一次 Vision Tower 编码和 Prefill 预填充。

以往的方法要么需要重新训练模型以适应稀疏输入，要么在复用 KV Cache 时会导致模型陷入 Cache Basin（缓存盆地）——即随着对话回合增加，模型开始随机输出乱码或陷入逻辑死循环。

核心机制：自适应修复与阶段天花板

1. C-PERSIST：后摄取状态复用的奇迹

作者发现，视频 ingest（摄取）后的重复提问是加速比最高的环节。通过自适应修复策略（Selective Re-prefill），模型仅刷新最新的一帧（K=1）作为“视觉尾部”，并继承之前的修复状态。这避免了全量重计算，同时通过打破旧缓存的静止惯性，消除了漂移。

模型架构与决策流程

2. C-CEILING：清醒的算数准则

这是一个极具学术清醒度的贡献。作者指出：如果视觉塔编码只占总耗时的 10%，那么即便你把视觉塔加速 100 倍，端到端的提升也微乎其微。 $E2 E_{ideal} = \frac{1}{f _{fixed} + ( 1 - f _{fixed} ) / s}$ 这个公式成为了衡量所有“加速组件”真实价值的标尺。

3. C-VISION：首过视觉剪枝

对于新视频，作者在视觉编码器的内部层实施剪枝，只保留最关键的特征块。在 Gemma 模型上，这一步在 32 帧配置下实现了 1.316x 的纯系统加速。

实验与战绩

在 VideoMME 基准测试中，VLMaxxing 展示了极强的稳定性。

性能提升：在 Qwen2.5-VL-7B 上，后续查询的延迟从数秒缩减到了 sub-second（亚秒级）。
零漂移承诺：在大规模配对测试中，VLMaxxing 的回答与全量 Dense 计算的回答完全一致（Zero Paired Drift）。

实验结果对比

深度洞察：迈向“VLM 原生媒体”

本文不仅仅是在修补现有的 VLM 运行时（Runtime），它提出了一个更宏大的愿景：未来的视频格式不应只是 RGB 像素块的堆叠。

如果媒体流本身就能告诉模型：“这几个块没变”、“这几个块是平移运动”、“这里出现了新物体”，那么模型将能把宝贵的计算资源（FLOPs）全部投入到那些真正涉及逻辑推理的关键帧上。

局限性与展望

尽管 VLMaxxing 在相同位置复用上表现完美，但在涉及相机剧烈晃动（Egomotion）或频繁切镜的视频中，其表现仍受限于基本的像素比对逻辑。未来的研究方向将围绕“运动补偿的特征复用”和“传感器融合缓存”展开。

总结

VLMaxxing 证明了：通过严密的系统工程和对时间冗余的深度利用，即便是不动权重的 Frozen Model，也能在视频处理效率上实现数量级的飞跃。这不仅是学术上的 SOTA，更是迈向实时视频交互助手的关键一步。

Find Similar Papers

Try Our Examples

查找最近其他尝试通过减少视频大模型（Video-VLM）冗余视觉记号（Visual Tokens）来提升推理效率的训练无关方法。
哪篇论文最早讨论了 Transformer 缓存（KV Cache）在长视频多轮对话中出现的性能衰退或“病态输出”现象？
有哪些最新的研究正在开发 machine-facing 的视频压缩标准，用于将传感器元数据直接注入视觉编码器？

Contents

VLMaxxing：让视频模型停止为“背景板”支付重复计算费

1. TL;DR

2. 痛点深挖：为何视频模型总是“记不住”？

3. 核心机制：自适应修复与阶段天花板

3.1. 1. C-PERSIST：后摄取状态复用的奇迹

3.2. 2. C-CEILING：清醒的算数准则

3.3. 3. C-VISION：首过视觉剪枝

4. 实验与战绩

5. 深度洞察：迈向“VLM 原生媒体”

5.1. 局限性与展望

6. 总结