HIPTrack: Visual Tracking with Historical Prompts

openaccess.thecvf.com

摘要

遵循孪生范式的跟踪器利用模板和搜索区域特征之间的相似性匹配进行跟踪。许多方法已被探索，通过结合跟踪历史来增强跟踪性能，以更好地处理涉及目标外观变化（如变形和遮挡）的场景。然而，现有方法中对历史信息的利用不足且不全面，通常需要重复训练并引入大量计算。在本文中，我们表明，通过为遵循孪生范式的跟踪器提供精确和更新的历史信息，可以在参数完全不变的情况下实现显著的性能提升。基于此，我们提出了一个历史提示网络，该网络使用精炼的历史前景掩码和目标的历史视觉特征，为跟踪器提供全面而精确的提示。我们基于历史提示网络构建了一个名为HIPTrack的新型跟踪器，该跟踪器在无需重新训练整个模型的情况下实现了可观的性能提升。我们在七个数据集上进行了实验，实验结果表明我们的方法在LaSOT、LaSOText、GOT-10k和NfS上超越了当前最先进的跟踪器。此外，历史提示网络可以作为即插即用模块无缝集成到现有跟踪器中，提供性能增强。源代码可在 https://github.com/WenRuiCai/HIPTrack获取。

引言

背景

视觉目标跟踪的挑战：
- 遮挡和外观变化：目标可能被其他物体部分或完全遮挡，或者由于视角、光照等因素发生外观变化。
- 复杂背景：背景中存在与目标类似的物体，容易造成混淆。
- 快速运动：目标的快速移动可能导致跟踪器丢失目标。
现有方法的局限性：
- 模板更新不足：大多数Siamese跟踪器仅使用初始帧作为模板，无法适应目标的外观变化。
- 历史信息利用不足：没有充分利用视频序列中丰富的历史信息来增强跟踪器的性能。

本文的动机

利用历史信息：通过引入历史提示网络，充分挖掘目标在历史帧中的视觉特征和位置信息，以提升跟踪的鲁棒性。

主要贡献

提出了历史提示网络（HPN）：一种新型的模块，用于编码和解码目标的历史信息。
达到了先进的性能：在多个跟踪基准数据集上取得了最先进的性能。
通用性强：该方法可作为插件，集成到现有的Siamese跟踪器中，提升其性能。

方法

总体架构

HIPTrack的架构包括三个主要部分：

特征提取网络：
- 主干网络：采用Vision Transformer（ViT）作为主干网络，具备强大的特征表达能力。
- 早期候选消除模块（CE）：利用模板与搜索区域的相关性，提前消除搜索区域中的背景干扰，提高特征的纯净度。
历史提示网络（HPN）：
- 历史提示编码器（HPE）：编码历史帧的目标特征和位置信息，生成历史提示。
- 历史提示解码器（HPD）：在当前帧解码并利用历史提示，增强当前帧的特征表达。
预测头网络：
- 定位和分类：基于融合了历史提示的特征，对目标位置进行精确预测和分类。