arxiv.org

简介

本文介绍了一篇题为《Separable Self and Mixed Attention Transformers for Efficient Object Tracking(分离自注意力与混合注意力变换器在高效目标追踪中的应用)》的论文,简称为SMAT。这篇论文由来自加拿大康考迪亚大学的研究人员提出,旨在通过创新的变换器架构提高轻量级视觉目标追踪的效率。该方法既能在GPU上实现高帧速率,又能在CPU等计算资源受限的硬件上取得较好的性能,非常适合应用于资源受限的场景。

接下来,我们将详细解析这篇论文,特别是重点解释其方法部分,并深入探讨提出的方法如何克服了现有变换器在视觉追踪任务中遇到的挑战。

研究背景

视觉目标追踪(Visual Object Tracking, VOT)是计算机视觉中的一个重要任务,其主要目的是在视频序列中连续追踪目标的移动路径。近年来,基于Siamese网络(孪生网络)的架构由于其简单且高效的特性,广泛应用于目标追踪。传统的Siamese网络主要包含三个模块:

  1. 骨干网络,用于提取目标模板和搜索区域的特征;
  2. 定位头模块,用于估计目标状态;
  3. 可选的特征融合模块,用于建模目标与搜索区域的关系。

随着变换器(Transformers)在视觉任务中的引入,基于Siamese网络的变换器模型在目标追踪任务中取得了显著进展。变换器利用其强大的全局特征建模能力,将特征提取和关系建模任务统一处理,能够在多个基准数据集上取得优异表现。然而,传统变换器的计算复杂度较高,特别是在硬件受限的设备上,例如CPU,导致帧率下降,影响其实用性。因此,轻量级且高效的变换器架构成为了当前研究的热点。

image.png

方法:SMAT架构解析

SMAT架构包含了两个主要模块:基于ViT(Vision Transformer)的骨干网络和自注意力预测头。整个架构的亮点在于引入了“分离自注意力与混合注意力”机制,极大提高了变换器的计算效率。

image.png

1. 混合注意力ViT骨干网络

在SMAT架构中,骨干网络的任务是从目标模板和搜索区域中提取特征,并在提取过程中融合两者的信息。为了实现高效的特征提取,论文采用了一种基于ViT的混合注意力机制。

混合注意力的核心思想是,在特征提取的过程中,通过一次操作同时实现“自注意力”和“交叉注意力”的计算。传统的注意力机制一般需要分别计算自注意力(用于建模自身特征的长距离依赖)和交叉注意力(用于融合目标和搜索区域的特征),这两个步骤的独立计算显然增加了计算复杂度。而混合注意力通过将模板和搜索区域的特征一起输入变换器层,再经过共享权重的卷积投影和注意力计算,使得同时建模自注意力与交叉注意力成为可能。这种处理方式不仅减少了计算开销,同时也在特征提取阶段实现了隐式的关系建模。

在具体实现上,骨干网络首先利用卷积神经网络(CNN)层对目标模板和搜索区域进行特征提取。接着,经过混合注意力ViT模块,通过“qkv投影”(即查询、键和值的生成),应用softmax函数得到混合注意力。然后,再通过残差连接(residual connection)和1x1卷积生成输出特征,这种处理方式能够大大提高特征的表达能力并提升模型的鲁棒性。

2. 自注意力预测头

在特征提取完毕后,接下来便是预测目标状态。SMAT采用了一种基于自注意力变换器的预测头模块来进行目标分类和边界框回归。自注意力预测头由两个分支组成: