多目标跟踪(MOT)是一项具有挑战性的视觉任务,旨在检测单个帧中的个体对象并在多个帧之间关联它们。最近的MOT方法可以分为两阶段的检测后跟踪(TBD)方法和一阶段的联合检测和跟踪(JDT)方法。尽管这些方法取得了一定的成功,但它们也存在一些常见问题,如有害的全局或局部不一致、鲁棒性与模型复杂性之间的权衡不佳,以及在同一视频的不同场景中缺乏灵活性。本文提出了一个简单但稳健的框架,将目标检测和关联共同公式化为从配对噪声框到配对真实框的一致去噪扩散过程。这种新颖的渐进去噪扩散策略大大增强了跟踪器的有效性,使其能够区分不同的对象。在训练阶段,配对目标框从配对真实框扩散到随机分布,模型通过反转这个加噪过程同时学习检测和跟踪。在推理中,模型通过灵活的一步或多步去噪扩散过程将一组随机生成的配对框优化为检测和跟踪结果。在三个广泛使用的MOT基准(包括MOT17、MOT20和DanceTrack)上的广泛实验表明,我们的方法在性能上与当前最先进的方法相比具有竞争力。代码可在 GitHub 获取。