ARTrack

Abstract

我们介绍了ARTrack，这是一种用于视觉目标跟踪的自回归框架。ARTrack将跟踪视为一个坐标序列解释任务，通过逐步估计目标轨迹，其中当前的估计由之前的状态引导，并反过来影响后续序列。这种时间自回归的方法对轨迹的顺序演变进行建模，以便在帧间持续跟踪目标，使其优于仅考虑每帧定位精度的现有模板匹配跟踪器。ARTrack简单直接，消除了定制的定位头和后处理步骤。尽管方法简单，ARTrack在现有基准数据集上实现了最先进的性能。源代码可在 GitHub 获取。

Introduction

视觉目标跟踪 [5, 20, 34, 38, 48, 52] 是计算机视觉领域的一个基础目标，其任务是根据目标的初始状态在每个视频帧中估计任意目标的位置。尽管其定义看似简单，但由于诸如目标形变、尺度变化、遮挡以及来自相似目标的干扰等多种问题，在现实场景中跟踪任务面临着重大挑战。幸运的是，视觉跟踪利用了丰富的时间数据，因为其输入包括一系列视频帧。观察来看，人类利用时间信息来感知目标的形变、速度和加速度趋势，使他们能够在视觉信息不清晰或暂时不可用的情况下保持一致的跟踪效果。

当前的主流视觉目标跟踪方法 [10,13,45,61,64] 通常将其视为逐帧模板匹配问题，忽略了视频帧之间可能存在的时间依赖性。这些方法通常包括三个主要阶段：(i) 基于深度神经网络的搜索和模板图像特征提取；(ii) 使用卷积 [2,4] 或注意力机制 [10,61] 进行特征匹配/融合的集成模块；以及 (iii) 通过定制化的角点 [13, 61]、中心/尺度 [64] 估计和目标分类 [4, 61] 的头部进行边界框定位。在某些情况下，前两个阶段可以通过统一架构 [13, 64] 结合。通常在定位步骤使用后处理技术，例如Hanning窗口惩罚 [10,56,64,68] 和框优化 [4, 56]。有些方法还包括模板更新机制，以改进目标特征表示。这类技术的代表包括模板图像选择 [61]、特征集成 [56] 和时间演化 [62, 66]。然而，定制的头部和后处理技术往往复杂，可能需要单独的训练和推理，这削弱了简单的端到端框架。此外，跟踪强调在整个序列中保持定位精度，而传统的逐帧训练方法优先考虑即时的定位精度，导致训练和推理之间目标不符 [35]。

本研究提出了一种新颖的视觉目标跟踪框架，不同于主流方法中典型的逐帧模板匹配任务。相反，作者提出将跟踪视为坐标序列解释，目标是学习一个简单的端到端模型用于直接轨迹估计。该方法基于这样的想法，即给定一系列帧和初始目标框，跟踪器应该“解释”出追踪目标的坐标序列，类似于语言建模任务。所提出的框架通过逐步解码来建模对象轨迹在帧间的顺序演化。当前的估计受之前状态的影响，并反过来影响后续序列，从而统一了训练和推理的任务目标。此外，该方法通过避免定制化的头部和后处理步骤来简化跟踪流程，而是依赖于直接的坐标回归。

所提出的自回归视觉跟踪框架，称为ARTrack，如图1所示。该框架的第一步是使用量化和序列化方案 [8] 从目标轨迹构建离散的标记序列。框架随即采用编码器-解码器架构逐步感知视觉信息并生成目标序列。在这个自回归框架中，先前的结果用作时空提示，将之前的运动动态传播到后续帧中以获得更一致的跟踪结果。值得注意的是，该模型通过结构化的损失函数进行训练，该函数在测试时最大化与任务目标一致的目标序列的可能性。作者通过广泛的实验验证了这种方法的有效性，显示出简单和整洁的ARTrack框架在现有的跟踪基准上实现了最先进的结果，超越了其他高度定制的跟踪器。

Tracking as Sequence Interpretation

我们将视觉跟踪视作一个序列坐标解释任务，并将其表述为条件概率模型：

P(Yt∣Yt−N:t−1,(C,Z,Xt))

其中，Z和Xt分别是时间步tt的模板和搜索图像，C是命令令牌，Y表示与X相关联的目标序列。模板Z可以在每个时间步骤通过更新机制[13, 56]更新，或者简单地保留为初始模板[40, 64]。正如所见，我们将跟踪任务构建为一个时间自回归过程，其中当前的结果是基于最近的N个历史状态，并以模板和搜索图像为条件。这是一个自回归模型[32, 63]，简称为AR(N)模型。当N=0时，公式（1）简化为一个逐帧模型P(Yt∣C,Z,Xt)，不依赖于先前状态。这个引入的自回归模型与视觉跟踪任务高度兼容，因为它本质上是一个序列预测任务。

当前帧中目标状态的估计受相邻的前序目标状态影响，并且也会影响后续帧。我们将此跟踪框架称为ARTrack，主要由以下组件构成：

序列构建：给定一个视频序列和初始目标框，视觉跟踪器预测一系列的边界框。它们被映射到一个统一的坐标系，并使用共享词汇转换为离散的标记序列。
网络架构：采用编码器-解码器架构，编码器嵌入视觉特征，解码器解释目标序列。
目标函数：模型在视频帧上进行训练，使用结构化损失函数来最大化目标序列的对数似然。此外，我们还探索了特定任务的目标以提高性能。

Sequence Construction from Object Trajectory

我们将对象轨迹描述为具有共享词汇的离散标记序列。

标记化：受到Pix2Seq框架[8]的启发，我们将连续坐标离散化，以避免描述连续坐标所需的大量参数，这个过程称为标记化。具体来说，时间步t的对象框由四个标记组成，即[xtmin,ytmin,xtmax,ytmax]，每个标记是[1,nbins]之间的整数。当bins的数量大于或等于图像分辨率时，可以实现零量化误差。然后，我们使用量化后的术语来索引一个可学习的词汇表，以获取与坐标对应的标记。这允许模型以离散标记的形式描述对象的位置，并且还允许使用现成的语言模型解码器进行坐标回归。