多摄像头多目标追踪Multi-Camera Multi-Target tracking, MCMT

参考论文: Box-Grained Reranking Matching for Multi-Camera Multi-Target Tracking

多摄像头多目标追踪(Multi-Camera Multi-Target tracking, MCMT)

MCMT的任务是通过综合多个摄像头的视频对其中的各种车辆进行跨摄像头的追踪,实际应用中帮助分析交通阻塞情况、规划交通时长。这样一个MCMT的系统通常有4个组成模块:车辆识别(vehicle detection)、重识别(Re-Identification, ReID)、单摄像头下多目标追踪(Single-Camera Multi-Target tracking, SCMT) 、跨摄像头间关联(Inter-Camera Association, ICA)。

处理流程

这4个模块组合起来的处理流程如下:

  1. 【车辆识别】检测识别出单摄像头下的视频帧中所有车辆 ,以边界框标注;
  2. 【Re-ID】根据上一步的检测结果,提取视频帧中边界框内的车辆的特征;
  3. 【SCMT】基于上两步的结果——车辆的定位和特征,生成单摄像头下车辆轨迹。
  4. 【ICA】进行跨摄像头的轨迹匹配,从而完成车辆的跨摄像头追踪。

车辆识别(vehicle detection)

车辆识别可以视作目标检测领域中的一个小分支,主要识别车辆这一个类别。
当前目标检测的检测器可以根据不同的Backbone,大致分为两类:基于CNN的目标检测器、基于Transformer的目标检测器。
因为卷积网络提取的感受野有限,所以基于CNN的目标检测器擅长捕捉局部的patch内的空间信息,而Transformer是计算相似度的矩阵运算,基于Transformer的目标检测器擅长更广范围的信息关联。

基于CNN的目标检测器

基于卷积神经网络的目标检测器例如:SSD、YOLO、Faster-RCNN、Cascade-RCNN等。根据其检测流程还可以细分为一阶段检测器(SSD、YOLO)和二阶段检测器(Faster-RCNN、Cascade-RCNN)。一阶段和二阶段的区别就是二阶段检测器在图片上生成了一些候选区域,基于候选区域中的特征进行目标检测,而一阶段检测器是对全图提取特征,基于全图特征进行目标检测。所以二阶段会比一阶段多一个生成候选区域的阶段。 在追踪效果和速度上来说,一阶段检测器速度更快,但二阶段检测的准确度更高。

基于Transformer的目标检测器

得益于Transformer在计算机视觉中的应用,基于Transformer的目标检测器,例如DERT、Swin Transformer涌现了。

重识别(Re-Identification, ReID)

任务是在不同摄像头下检索到同一车辆。通常Re-ID的方法都是基于CNN的。在这些方法中,几种loss函数、采样策略、数据生成方法都有益于学习到更有判别力的特征。

三种常用的Loss函数

三种常用的Loss函数分别为:identity loss、verification loss、triplet loss。详细参照:ReID——行人重识别中常用loss与评价指标说明

  • identity loss(一致性损失函数)如交叉熵损失函数,ReID的训练看做训练图片的分类问题,每一个ID都是一个类。
  • verification loss可以度量两个样本之间的关系,即不同摄像头下出现的人配对问题。输入为一对(两张)图片,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签(same/not),其中表示两张图片属于同一个行人(正样本对),反之表示它们属于不同行人(负样本对)。
  • triplet loss 是度量3个样本之间特征距离的损失。 其基本思想是,通过预定义的边缘(margin),正对之间的距离应该小于负对样本之间的距离。

采样策略

由于正负样本对的不均匀,所以出现一些适应性的采样策略。

数据生成方法

由于标签数据很少,基于CNN的ReID方法不能完全发挥性能,所以许多方法应用了GAN网络生成合成的车辆图片以增加训练数据量。

单摄像头下多目标追踪(Single-Camera Multi-Target tracking, SCMT)

当前的单摄像头下的多目标追踪方法可以分为两类:基于检测的多目标追踪(tracking-by-detection)和检测追踪联合方法(joint-detection-tracking)。

基于检测的多目标追踪(tracking-by-detection)

该分类下的追踪器首先获取视频帧中所有目标的检测边界框,再基于视频帧中的外观信息和运动信息将连续帧中相同目标边界框关联生成目标轨迹,进而完成多目标追踪。
追踪效果很大程度要依赖于目标检测的效果。因为目标检测器发展迅速,所以这类基于检测的多目标追踪方法处于领域主导地位。

  • SORT采用卡尔曼滤波算法估计目标的运动信息。
  • DeepSORT在SORT的框架下在目标关联这一步引入深度视觉特征。

检测追踪联合的多目标追踪(joint-detection-tracking)

近年的检测追踪联合的多目标追踪器将外观信息的embedding或运动预测与检测框架融合。优点是在达到与上一类追踪器相似的效果下计算量更小,但这类追踪器面临的问题是性能上限不高。

跨摄像头间关联(Inter-Camera Association, ICA)

跨摄像头间的关联模块主要依赖上面三个模块的输出结果进行轨迹匹配。先前的工作尝试从不同方面来解决轨迹匹配问题。
如果追踪的目标是道路上的车辆,那么可以将交通规则和时间空间等限制因素作为模型的约束条件以减少模型的搜索空间
常用算法有贪心算法、匈牙利匹配等。

猜你喜欢

转载自blog.csdn.net/qq_42312574/article/details/128880805
今日推荐