WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2024] UTPTrack:首个全路径联合剪枝框架,重塑 Transformer 跟踪效率标杆
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 UTPTrack,这是首个通过对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 进行联合剪枝的统一视觉跟踪框架。该方法在 RGB 及多模态跟踪任务中实现了最优的精度-效率平衡,在修剪超过 65% Token 的情况下仍能保持甚至超越基准性能。

TL;DR

视觉目标跟踪(VOT)领域正在经历从“两流”向“单流”Transformer 架构的范式转移,但计算成本的剧增始终是其实时部署的“拦路虎”。本文提出的 UTPTrack 打破了以往仅对搜索区域剪枝的局限,首次实现了对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 的全路径联合压缩。凭借 Attention 引导的统一建模,它在减少 65% 以上 Token 的同时,在 RGB 和多模态(深度、热红外、事件、语言)任务中均达到了新的 SOTA 平衡点。

背景与动机:碎片化剪枝的局限性

在单流跟踪器(如 OSTrack)中,由于 SR、DT、ST 被拼接在一起送入 Transformer,二次方复杂度的 Attention 机制带来了巨大的冗余。

以往的优化方案(如 OSTrack-CE 或 ProContEXT)存在两个主要痛点:

  1. 孤立剪枝 (Isolation):它们通常只剪掉搜索区域的背景 Token。然而,模板(特别是受环境影响的动态模板)同样存在噪声,孤立处理会破坏组件间的语义对齐。
  2. 多模态割裂:当引入文本描述或深度图等多模态输入时,传统的剪枝策略难以利用跨模态的语义引导。

UTPTrack 的核心直觉在于:跟踪性能取决于 SR 与模板之间的精确交互,剪枝过程也应当反映这种跨组件的依赖关系。

核心方法:统一 Token 剪枝框架

UTPTrack 的核心架构由一个轻量级的 Candidate or Template Elimination Module (CTEM) 组成,该模块无缝嵌入到 Transformer 的编码器层中。

UTPTrack 模型架构图

1. 联合注意力引导 (Attention-Guided)

UTPTrack 复用了模型固有的 Attention Map 来评估重要性,无需引入额外的预测分支。通过计算 SR/DT Token 与静态模板(ST)中心 Token 的相似度得分,模型能够精准识别出哪些区域是干扰背景,哪些是关键目标。

2. Token 类型感知策略 (TTA)

为了防止在 ST 中误删关键的前景 Token,作者引入了 Token Type-Aware 策略。它利用初始帧的 Bounding Box 生成遮罩(Mask),作为额外权重(Bonus)叠达到 Attention Score 上。实验证明,这种带有空间先验的“软奖励机制”能显著提升静态模板剪枝后的鲁棒性。

3. 多模态与文本引导 (Text-Guided)

在统一跟踪(Unified Tracking)任务中,UTPTrack 展现了极强的泛化力。特别是其 Text-Guided Pruning,将文本 Token 的 Query 与视觉 Token 的 Key 进行跨模态交互,利用语言意图来“指挥”视觉 Token 的保留逻辑。

实验战绩:不降反升的奇迹

研究人员在 LaSOT、GOT-10k 等 10 个主流榜单上进行了疯狂测试。

实验性能对比图

  • 极致压缩:在 UTPTrack-O384 变体中,Token 数量降低了 65.4%,推理速度在 CPU 上提升了近一倍,而 Accuracy 仅仅损失了 0.3%。
  • 正向增益:在多模态(Unified Tracking)场景下,UTPTrack 的表现甚至超过了未剪枝的基准(100.5%)。这说明合理的剪枝不仅能加速,还能作为一种正则化手段,过滤掉背景噪声,增强模型对目标的关注。

深度洞察

UTPTrack 的成功证明了视觉跟踪任务中的“信息密度”远低于我们之前的假设。通过联合剪枝,我们实际上是在 Transformer 内部构建了一个动态的稀疏交互场,强制模型在推理阶段只关注“最相关的组件交互”。

另一个启发点在于多模态一致性:通过将文本引导嵌入剪枝模块,UTPTrack 实际上解决了异构数据在 Transformer 中的统一重要性度量问题,这对未来开发更高效的多模态 foundation models 具有参考意义。

总结与价值

UTPTrack 是一篇非常扎实的工程与理论结合之作。它没有堆砌复杂的数学公式,而是通过对跟踪任务中“模板-搜索”物理关系的深刻理解,设计出简单且高效的联合剪枝策略。其代码开源以及对任意 Transformer 架构的无感知兼容性,使其极具落地应用潜力。


编者按:如果你正在苦恼如何让显存杀手级的 Transformer 跟踪算法跑在端侧设备上,UTPTrack 提供的这一套联合剪枝逻辑绝对值得复现。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他采用联合剪枝(Joint Pruning)策略优化多模态 Transformer 模型的 SOTA 论文。
  • 追溯视觉跟踪中单流 Transformer 架构(One-stream Transformer)的起源,并探讨其与本文中 Token 依赖性建模的联系。
  • 调研目前有哪些研究将文本引导(Text-guided)的稀疏化技术应用到了实时视频处理或视频理解任务中?
Contents
[CVPR 2024] UTPTrack:首个全路径联合剪枝框架,重塑 Transformer 跟踪效率标杆
1. TL;DR
2. 背景与动机:碎片化剪枝的局限性
3. 核心方法:统一 Token 剪枝框架
3.1. 1. 联合注意力引导 (Attention-Guided)
3.2. 2. Token 类型感知策略 (TTA)
3.3. 3. 多模态与文本引导 (Text-Guided)
4. 实验战绩:不降反升的奇迹
5. 深度洞察
6. 总结与价值