arxiv.org

丰富的时空信息对于捕捉视觉跟踪中复杂的目标外观变化至关重要。然而,大多数表现优异的跟踪算法依赖于许多手工制作的组件来进行时空信息聚合。因此,时空信息还远未被充分探索。为了解决这个问题,我们提出了一种基于时空变压器的自适应跟踪器(称为AQATrack),它采用简单的自回归查询来有效学习时空信息,而无需大量手工设计的组件。首先,我们引入了一组可学习的自回归查询,以滑动窗口的方式捕捉瞬时目标外观变化。然后,我们设计了一种新颖的注意力机制,用于现有查询的交互,以生成当前帧的新查询。最后,基于初始目标模板和学习到的自回归查询,设计了一个时空信息融合模块(STM)用于时空形式聚合以定位目标对象。得益于STM,我们可以有效地结合静态外观和瞬时变化以指导稳健的跟踪。广泛的实验表明,我们的方法在六个流行的跟踪基准(LaSOT, LaSOText, TrackingNet, GOT-10k, TNL2K, 和 UAV123)上显著提高了跟踪器的性能。

image.png

image.png

image.png