arxiv.org

1. 背景介绍:什么是视觉目标追踪?

视觉目标追踪(Visual Object Tracking, VOT)指的是通过视频连续帧识别并跟踪指定目标位置的过程。这项技术广泛应用于自动驾驶、智能监控、无人机拍摄等领域。然而,传统基于RGB(红绿蓝)相机的追踪技术在面对光照变化、目标快速移动、视野范围外等复杂场景时表现并不理想。因此,近年来引入了新的传感器,如事件相机,以提高追踪性能。

事件相机与传统相机的区别

事件相机是一种仿生传感器,能够异步输出事件脉冲,并通过检测光强度变化来捕获运动信息。与传统相机相比,事件相机在快速移动的物体追踪、高动态范围、低能耗和低延迟等方面具有优势。

2. 现有方法与挑战

当前基于事件相机的追踪方法主要分为两类:

这篇论文中提到,目前已有的事件追踪数据集多为低分辨率(例如,346×260),尚未验证在高分辨率(如1280×720)事件数据上的效果。这就引出一个问题:能否在训练阶段利用多模态或多视角数据进行知识转移,从而在测试阶段仅通过事件数据实现稳健的追踪效果?

3. 论文创新点

为解决上述问题,本文提出了一个层次化知识蒸馏框架,通过教师-学生网络结构实现跨模态知识转移,以便在测试时仅利用事件数据完成快速低延迟的目标追踪。论文的主要贡献包括:

1. 方法概述(Overview)

image.png

在事件相机追踪中,由于事件相机生成的数据与传统的RGB视频帧有所不同,仅依靠事件相机数据来训练的模型会面临很多挑战,比如事件数据稀疏和背景噪声较多。因此,论文提出了一种创新的方法,即层次化知识蒸馏(Hierarchical Knowledge Distillation),通过教师-学生网络架构将多模态数据(RGB与事件数据)所包含的知识传递给纯事件数据网络,以实现高效且低延迟的追踪。

整体框架由以下几部分组成: