Unified Sequence-to-Sequence Learning for

Single- and Multi-Modal Visual Object Tracking

本文介绍了一种新的序列到序列学习框架,用于基于RGB和多模态的目标跟踪。首先,我们提出了SeqTrack用于基于RGB的跟踪。该方法将视觉跟踪视为一个序列生成任务,以自回归方式预测目标边界框。这与之前依赖复杂头部网络设计(如分类头和回归头)的跟踪器不同。SeqTrack采用了基础的编码器-解码器变换器架构。编码器利用双向变换器进行特征提取,而解码器则使用因果变换器自回归地生成边界框序列。损失函数采用简单的交叉熵。其次,我们介绍了SeqTrackv2,一个统一的序列到序列框架,用于多模态跟踪任务。在SeqTrack的基础上,SeqTrackv2集成了辅助模态的统一接口和一组任务提示标记,以明确任务。这使得它能够使用统一的模型和参数集来处理多模态跟踪任务。这种序列学习范式不仅简化了跟踪框架,还在涵盖五个单模态和多模态跟踪任务的14个具有挑战性的基准测试中展示了卓越的性能。

image.png

image.png

image.png

目标跟踪算法个人理解-SeqTrack篇-CSDN博客

https://arxiv.org/pdf/2304.14394

image.png