UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

[CVPR 2024] UTPTrack：首个全路径联合剪枝框架，重塑 Transformer 跟踪效率标杆

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 UTPTrack，这是首个通过对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 进行联合剪枝的统一视觉跟踪框架。该方法在 RGB 及多模态跟踪任务中实现了最优的精度-效率平衡，在修剪超过 65% Token 的情况下仍能保持甚至超越基准性能。

TL;DR

视觉目标跟踪（VOT）领域正在经历从“两流”向“单流”Transformer 架构的范式转移，但计算成本的剧增始终是其实时部署的“拦路虎”。本文提出的 UTPTrack 打破了以往仅对搜索区域剪枝的局限，首次实现了对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 的全路径联合压缩。凭借 Attention 引导的统一建模，它在减少 65% 以上 Token 的同时，在 RGB 和多模态（深度、热红外、事件、语言）任务中均达到了新的 SOTA 平衡点。

背景与动机：碎片化剪枝的局限性

在单流跟踪器（如 OSTrack）中，由于 SR、DT、ST 被拼接在一起送入 Transformer，二次方复杂度的 Attention 机制带来了巨大的冗余。

以往的优化方案（如 OSTrack-CE 或 ProContEXT）存在两个主要痛点：

孤立剪枝 (Isolation)：它们通常只剪掉搜索区域的背景 Token。然而，模板（特别是受环境影响的动态模板）同样存在噪声，孤立处理会破坏组件间的语义对齐。
多模态割裂：当引入文本描述或深度图等多模态输入时，传统的剪枝策略难以利用跨模态的语义引导。

UTPTrack 的核心直觉在于：跟踪性能取决于 SR 与模板之间的精确交互，剪枝过程也应当反映这种跨组件的依赖关系。

核心方法：统一 Token 剪枝框架

UTPTrack 的核心架构由一个轻量级的 Candidate or Template Elimination Module (CTEM) 组成，该模块无缝嵌入到 Transformer 的编码器层中。

UTPTrack 模型架构图

1. 联合注意力引导 (Attention-Guided)

UTPTrack 复用了模型固有的 Attention Map 来评估重要性，无需引入额外的预测分支。通过计算 SR/DT Token 与静态模板（ST）中心 Token 的相似度得分，模型能够精准识别出哪些区域是干扰背景，哪些是关键目标。

2. Token 类型感知策略 (TTA)

为了防止在 ST 中误删关键的前景 Token，作者引入了 Token Type-Aware 策略。它利用初始帧的 Bounding Box 生成遮罩（Mask），作为额外权重（Bonus）叠达到 Attention Score 上。实验证明，这种带有空间先验的“软奖励机制”能显著提升静态模板剪枝后的鲁棒性。

3. 多模态与文本引导 (Text-Guided)

在统一跟踪（Unified Tracking）任务中，UTPTrack 展现了极强的泛化力。特别是其 Text-Guided Pruning，将文本 Token 的 Query 与视觉 Token 的 Key 进行跨模态交互，利用语言意图来“指挥”视觉 Token 的保留逻辑。

实验战绩：不降反升的奇迹

研究人员在 LaSOT、GOT-10k 等 10 个主流榜单上进行了疯狂测试。

实验性能对比图

极致压缩：在 UTPTrack-O384 变体中，Token 数量降低了 65.4%，推理速度在 CPU 上提升了近一倍，而 Accuracy 仅仅损失了 0.3%。
正向增益：在多模态（Unified Tracking）场景下，UTPTrack 的表现甚至超过了未剪枝的基准（100.5%）。这说明合理的剪枝不仅能加速，还能作为一种正则化手段，过滤掉背景噪声，增强模型对目标的关注。

深度洞察

UTPTrack 的成功证明了视觉跟踪任务中的“信息密度”远低于我们之前的假设。通过联合剪枝，我们实际上是在 Transformer 内部构建了一个动态的稀疏交互场，强制模型在推理阶段只关注“最相关的组件交互”。

另一个启发点在于多模态一致性：通过将文本引导嵌入剪枝模块，UTPTrack 实际上解决了异构数据在 Transformer 中的统一重要性度量问题，这对未来开发更高效的多模态 foundation models 具有参考意义。

总结与价值

UTPTrack 是一篇非常扎实的工程与理论结合之作。它没有堆砌复杂的数学公式，而是通过对跟踪任务中“模板-搜索”物理关系的深刻理解，设计出简单且高效的联合剪枝策略。其代码开源以及对任意 Transformer 架构的无感知兼容性，使其极具落地应用潜力。

编者按：如果你正在苦恼如何让显存杀手级的 Transformer 跟踪算法跑在端侧设备上，UTPTrack 提供的这一套联合剪枝逻辑绝对值得复现。

Find Similar Papers

Try Our Examples

查找最近一年内其他采用联合剪枝（Joint Pruning）策略优化多模态 Transformer 模型的 SOTA 论文。
追溯视觉跟踪中单流 Transformer 架构（One-stream Transformer）的起源，并探讨其与本文中 Token 依赖性建模的联系。
调研目前有哪些研究将文本引导（Text-guided）的稀疏化技术应用到了实时视频处理或视频理解任务中？

Contents

[CVPR 2024] UTPTrack：首个全路径联合剪枝框架，重塑 Transformer 跟踪效率标杆

1. TL;DR

2. 背景与动机：碎片化剪枝的局限性

3. 核心方法：统一 Token 剪枝框架

3.1. 1. 联合注意力引导 (Attention-Guided)

3.2. 2. Token 类型感知策略 (TTA)

3.3. 3. 多模态与文本引导 (Text-Guided)

4. 实验战绩：不降反升的奇迹

5. 深度洞察

6. 总结与价值