Tracking without bells and whistles论文阅读

Tracking without bells and whistles论文阅读

利用检测器的回归能力,对下一帧图片的bbox进行预测。

本文主要工作:

  1. 通过利用检测器的回归头,来将上一帧的bbox回归至当前帧,解决了MOT问题;
  2. 对MOT常见的跟踪失败的场景进行了分析,别的方法都没有本文提出的方法好;

将检测器直接转换为跟踪器有两个好处:

  1. 不需要对跟踪方面有任何额外的训练;
  2. 不需要在预测阶段有任何额外的优化。

方法

Vanilla Tracktor

image-20230615193200015

主要方法分为两步:

  1. Bounding box regression。第一部分为上图的蓝色箭头,利用检测器,将来自第 t − 1 t-1 t1帧的bbox b t − 1 k \mathbf{b}^{k}_{t-1} bt1k回归到第 t t t帧的位置 b t k \mathbf{b}^{k}_{t} btk。具体来说,如果使用的是Faster R-CNN的话,使用RoI pooling应用在当前帧( t t t帧)上,但是RoI pooling使用的是上一帧的bbox的位置。所以,这里涉及到一个假设,也就是目标相对上一帧不会移动太远距离。ID也会从 b t − 1 k \mathbf{b}^{k}_{t-1} bt1k转移到 b t k \mathbf{b}^{k}_{t} btk。下面两种情况会将这个轨迹kill掉:回归得到的置信度 s t k < σ a c t i v i t y s_{t}^{k}<\sigma_{activity} stk<σactivity,也就是目标被遮挡或者离开了画面;IoU大于阈值;
  2. Bounding box initialization。为了初始化新的轨迹,会对整个画面进行目标检测,这部分为上图的红色箭头。仅当检测到的bbox和上一步回归得到的bbox的IoU小于阈值时,才会初始化新的bbox。

Extention

这部分是对上一部分的扩展。因为当相机在运动或者视频帧率很低的时候,上面的方法效果可能不会很好。

运动模型:对相机运动的场景,加入相机运动补偿(CMC)。使用ECC(Enhanced Correlation Coeffificient)maximization来进行图像配准。对帧率很低的场景,对每个目标加入 constant velocity assumption (CVA)。

ReID:储存被kill掉的轨迹的ReID特征,对于新初始化的轨迹,在被kill掉的ReID特征中对其进行匹配。

猜你喜欢

转载自blog.csdn.net/fuss1207/article/details/131235156