本文提出了 SCORE (Surprise-augmented token COmpression via REinforcement learning),一种基于强化学习的视频令牌(Token)动态压缩框架。该方法通过轻量级策略网络识别视频中的冗余视觉令牌,在 Llama-Video 和 Qwen2.5-VL 等模型上实现了 16 倍的推理预填充加速,且在 10% 的极低保留率下依然保持了 99.5% 的性能。
TL;DR
面对动辄上万个视觉令牌的长视频,多模态大语言模型(MLLM)往往会陷入“上下文腐烂”的泥潭。中科大等机构的研究者提出了 SCORE,通过强化学习训练一个极轻量的“令牌压缩器”。它能精准识别视频中的运动变化(Surprise),在保留仅 10% 令牌的情况下,将推理预填充速度提升 16 倍,且性能几乎无损。
背景定位:当长视频遇到“上下文腐烂”
现代 MLLM 虽然能处理极长的上下文,但存在一个致命痛点:Context Rot (上下文腐烂)。当输入信息量过载时,模型处理序列中间信息的能力会骤降。在视频场景下,成千上万的令牌中充斥着大量的静态背景(如天空、墙壁)和重复动作,这些“噪声”不仅拖慢了计算速度(Transformer 的平方复杂度),更淹没了真正关键的语义信息。
现有方法如 pooling 或 similarity 合并由于缺乏对下游任务的感知,往往“胡子眉毛一把抓”,导致性能下降。
核心动机:如何定位“惊喜”?
SCORE 的设计灵感来自一个简单的直觉:变化即信息。 作者认为,视频中真正重要的内容通常伴随着运动或语义的改变。因此,他们提出了“惊喜增强型”状态编码(Surprise-augmented State Encoding)。
图 1:SCORE 框架总览,展示了从视觉编码器到策略网络再到分发给 LLM 的全流程
关键技术点 1:Surprise 信号
通过计算相邻帧之间的残差 ,模型能显式地看到哪些区域发生了变动。将原始 Embedding 与这个“惊喜信号”拼接,策略网络就能轻松识别出哪些令牌是冗余的静态背景。
关键技术点 2:组内强化学习与分割优势估计
由于令牌保留是离散决策(Keep or Drop),无法直接通过反向传播优化。SCORE 采用了组内强化学习,对同一个视频采样多个压缩掩码(Mask),通过评估下游 LLM 的预测质量(Cross-entropy)来给出奖励。
- 分割优势估计器 (Split-advantage Estimator):将 rollouts 分为安全区和惩罚区,引导模型在保证性能的前提下尽可能追求稀疏性。
实验与结果:不仅更快,甚至更强
在 Qwen2.5-VL 等模型上的实验结果令人震惊:
表 1:SCORE 与各种基线在不同保留率下的性能对比。注意在 25% 保留率时,分数甚至超过了 Vanilla(全令牌)模式。
- 超越 SOTA:在所有保留率(10%, 25%, 40%)下,SCORE 均刷新了记录。
- 正向增益:在 25% 保留率下,SCORE 获得了 58.9 的平均分,高于原始模型的 57.3。这说明剪掉冗余令牌实际上净化了上下文,帮助模型更聚焦于关键逻辑。
- 极致加速:在 10% 保留率下,LLM 的预填充耗时从 8539ms 缩短至 527ms,加速比高达 16.2 倍。
深度可视化:模型在看什么?
图 2:令牌掩码可视化。可以看到,SCORE 自动聚焦在了移动的人物、动物及操作物体上,而过滤掉了背景环境。
总结与洞察
SCORE 的成功展示了“动态计算”在多模态领域的巨大潜力。它不仅是一个工程上的加速方案,更揭示了视频大模型的一个重要特性:Less is More。通过显式建模时间差分信号并利用强化学习对齐下游任务,我们可以在大幅降低资源消耗的同时,获得更精准的理解能力。
局限性:尽管 SCORE 非常高效,但其两阶段训练(由伪视频到真视频)仍需一定的算力和高质量教师模型重标注的数据。未来,如何实现无监督或完全自监督的压缩策略学习将是更具挑战性的方向。
