论文解读《TransTrack: Multiple-Object Tracking with Transformer》

论文地址:https://arxiv.org/pdf/2012.15460.pdf

自从2020年ECCV中DETR在object detection领域惊艳众人以后,这种transformer-based的结构应用到了视觉中很多领域,其中就包括MOT。TransTrack这篇文章应该是transformer第一次应用到MOT上面的尝试,效果SOTA,而且思路个人认为很棒很简洁。

以前的MOT任务都是将detection和reid当作两个独立任务来处理,虽然以JDE、FairMOT为代表的方法将两个网络耦合在一起,但tracking还是离不开deepsort,而且object集合的无序性会带来一定的麻烦。于是作者将transformer这类的key-query机制引入到MOT,大致流程如下图:
在这里插入图片描述

输出当前帧图像,经过一个CNN得到feature map,打散维度再经过encoder得到key;然后有两个并行的decoder,其中一个将key和learned object query(详细见DETR)作为输入,这个learned object query是一组学习到的embedding,一定程度上表示着目标的位置(与anchor有些类似),通过该decoder就可以得到该帧的detection box;另一个decoder将key与上一帧的object feature query作为输入,根据上一帧object的特征可以associate到当前帧的对应object的位置,从而得到当前帧的tracking box。

随后将tracking box和detection box之间进行匹配,通过将框之间的iou作为代价,采用KM算法进行匹配,匹配上的就是track到上一帧的object,其余box为当前帧新出现的object。

模型图如下所示:
在这里插入图片描述
实验部分感兴趣的话可以看一下论文,这里就贴一张图:

在这里插入图片描述

参考:https://zhouchen.blog.csdn.net/article/details/112427217

猜你喜欢

转载自blog.csdn.net/jackzhang11/article/details/114978755