本文提出了 UTPTrack,这是首个通过对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 进行联合剪枝的统一视觉跟踪框架。该方法在 RGB 及多模态跟踪任务中实现了最优的精度-效率平衡,在修剪超过 65% Token 的情况下仍能保持甚至超越基准性能。
TL;DR
视觉目标跟踪(VOT)领域正在经历从“两流”向“单流”Transformer 架构的范式转移,但计算成本的剧增始终是其实时部署的“拦路虎”。本文提出的 UTPTrack 打破了以往仅对搜索区域剪枝的局限,首次实现了对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 的全路径联合压缩。凭借 Attention 引导的统一建模,它在减少 65% 以上 Token 的同时,在 RGB 和多模态(深度、热红外、事件、语言)任务中均达到了新的 SOTA 平衡点。
背景与动机:碎片化剪枝的局限性
在单流跟踪器(如 OSTrack)中,由于 SR、DT、ST 被拼接在一起送入 Transformer,二次方复杂度的 Attention 机制带来了巨大的冗余。
以往的优化方案(如 OSTrack-CE 或 ProContEXT)存在两个主要痛点:
- 孤立剪枝 (Isolation):它们通常只剪掉搜索区域的背景 Token。然而,模板(特别是受环境影响的动态模板)同样存在噪声,孤立处理会破坏组件间的语义对齐。
- 多模态割裂:当引入文本描述或深度图等多模态输入时,传统的剪枝策略难以利用跨模态的语义引导。
UTPTrack 的核心直觉在于:跟踪性能取决于 SR 与模板之间的精确交互,剪枝过程也应当反映这种跨组件的依赖关系。
核心方法:统一 Token 剪枝框架
UTPTrack 的核心架构由一个轻量级的 Candidate or Template Elimination Module (CTEM) 组成,该模块无缝嵌入到 Transformer 的编码器层中。

1. 联合注意力引导 (Attention-Guided)
UTPTrack 复用了模型固有的 Attention Map 来评估重要性,无需引入额外的预测分支。通过计算 SR/DT Token 与静态模板(ST)中心 Token 的相似度得分,模型能够精准识别出哪些区域是干扰背景,哪些是关键目标。
2. Token 类型感知策略 (TTA)
为了防止在 ST 中误删关键的前景 Token,作者引入了 Token Type-Aware 策略。它利用初始帧的 Bounding Box 生成遮罩(Mask),作为额外权重(Bonus)叠达到 Attention Score 上。实验证明,这种带有空间先验的“软奖励机制”能显著提升静态模板剪枝后的鲁棒性。
3. 多模态与文本引导 (Text-Guided)
在统一跟踪(Unified Tracking)任务中,UTPTrack 展现了极强的泛化力。特别是其 Text-Guided Pruning,将文本 Token 的 Query 与视觉 Token 的 Key 进行跨模态交互,利用语言意图来“指挥”视觉 Token 的保留逻辑。
实验战绩:不降反升的奇迹
研究人员在 LaSOT、GOT-10k 等 10 个主流榜单上进行了疯狂测试。

- 极致压缩:在 UTPTrack-O384 变体中,Token 数量降低了 65.4%,推理速度在 CPU 上提升了近一倍,而 Accuracy 仅仅损失了 0.3%。
- 正向增益:在多模态(Unified Tracking)场景下,UTPTrack 的表现甚至超过了未剪枝的基准(100.5%)。这说明合理的剪枝不仅能加速,还能作为一种正则化手段,过滤掉背景噪声,增强模型对目标的关注。
深度洞察
UTPTrack 的成功证明了视觉跟踪任务中的“信息密度”远低于我们之前的假设。通过联合剪枝,我们实际上是在 Transformer 内部构建了一个动态的稀疏交互场,强制模型在推理阶段只关注“最相关的组件交互”。
另一个启发点在于多模态一致性:通过将文本引导嵌入剪枝模块,UTPTrack 实际上解决了异构数据在 Transformer 中的统一重要性度量问题,这对未来开发更高效的多模态 foundation models 具有参考意义。
总结与价值
UTPTrack 是一篇非常扎实的工程与理论结合之作。它没有堆砌复杂的数学公式,而是通过对跟踪任务中“模板-搜索”物理关系的深刻理解,设计出简单且高效的联合剪枝策略。其代码开源以及对任意 Transformer 架构的无感知兼容性,使其极具落地应用潜力。
编者按:如果你正在苦恼如何让显存杀手级的 Transformer 跟踪算法跑在端侧设备上,UTPTrack 提供的这一套联合剪枝逻辑绝对值得复现。
