多对象跟踪 (MOT) 需要通过帧检测和关联对象来实现,这与通过检测到的边界框进行跟踪,或将对象作为点进行跟踪这两种方法有所不同,我们建议将对象跟踪作为像素分布。经过在基于转换器的架构 P3AFormer 上实例化这个想法后,结果表现出具有像素级传播、预测和关联。P3AFormer 传播具有流信息引导的像素级特征,并在帧之间传递消息。此外,P3AFormer 采用元架构来生成多尺度对象特征图。在推理过程中,我们还提出了一种逐像素关联过程,以基于逐像素预测通过帧恢复对象连接。在 MOT17 基准测试中,P3AFormer 的 MOTA 为 81.2%——值得一提的是,这是目前文献中所有变压器网络中第一个达到 80% MOTA。同时,P3AFormer 在 MOT20 和 KITTI 基准上的表现也优于最先进的技术。