Multi-Class Multi-Object Tracking using ChangingPoint Detection


1.  摘要

本文提出了一种新颖的多类多目标跟踪(MCMOT)框架,通过组合检测响应和变点检测(CPD)算法来进行无限类多目标跟踪。该框架的效果优于当前最先进的视频跟踪技术。

检测响应:用CNN-based的object detector和基于KLT(Lucas-Kanede Tracker)的motion detector来计算the likelihoodsof foreground regions,以此作为不同类别目标的检测响应。

CPD:CPD模型用于观察由遮挡或者draft引起的突变状况。

基准数据集:ImageNet VID 和 MOT Benchmark 2016。

2. MCMOT框架

MCMOT算法总结:

首先,在实体状态转换步骤中执行对象的出现和消失分配。其次,使用数据驱动的MCMC采样步骤构建中间轨道段。然后,通过变化点检测算法监测可能发生的漂移。最后组合出轨迹。

上图所示中的step1在observation model中详细介绍。

2.1 观察模型

集合了多种特征的目标检测器来计算目标的observation likelihood,最后估计出目标的类别和精确位置。

本节中定义observation model(observation likelihood)P(Z_t |X_t) 。追踪物的observation likelihood需要估计物体类别和精确的位置。MCMOT集合不同特征的object detectors来精确的计算observationlikelihood。用存在和不存在可能性的比率来衡量。由于无法测量non-existenceset的likelihood采用likelihood模型的soft max函数f(.),如下

表示物体id不存在,λ_e表示object detector的权重。由于每个detector都有自己的优缺点,这个方法应该对零散的噪音有健壮性。

使用的detectors有deep featurebased globe object detector(GT)、deep featurebased local object detector(LT)、colordetector(CT)、motion detector(MT):

(1)   GT:使用基于分层数据模型(HDM)的基于深度特征的object detector。

(2)   LT:通过使用可靠的轨迹段微调基于深度特征的object detector,可以最小化由于falsenegative造成的问题。

(3)    CT:通过使用Bhattacharyya距离来计算observedappearance model和target之间的相似度得分。Bhattacharyya距离基于bounding box的RGB颜色直方图。

(4)   MT(motion detector):使用基于KLT的motion detector 检测对象的存在。

2.2 创建track segment

下面将讨论数据驱动MCMC采样细节,以及实体状态转换。

数据驱动的MCMC采样

在基于MCMC的抽样中,proposal density function很重要,因为它影响固定分布的马尔可夫链的构建。给定场景粒子t时刻的状态,可以根据提议密度函数来建议粒子t+1时刻的状态。本文中采用数据驱动的提议密度使马尔可夫链有更好的接受率。本文的MCMOT提出了一个新的状态,其中混合了状态移动以确保运动平稳性,如下所示:

其中λ_1+λ_2=1。第一项来自运动模型,第二项来自探测器集合,并使用来自对象id的所有探测的最接近结果。

估计实力状态转换


2.3 变点检测

首先变点检测算法会计算出一个CPD分数,若这个分数超过阈值,则要经过前向-后向验证计算FB error,若此值超过阈值,则排除所对应的tracksegment。最后整合留下的confident segments成轨迹。

FB error是根据验证点的初始点和终点之间欧氏距离来度量的,公式如下:

3 实验结果

3.1 实验细节

如何构建全局和局部目标检测器:使用ImageNet分类数据集上预训练的公共可用16层VGG-Net和ResNet,然后用ImageNet挑战检测数据集进行微调,其中迭代次数为280k、学习率为0.001。

使用RPN生成region proposal。

变化点阈值设置为0.3

3.2 CPD分析

如图,红线对应的纵坐标的值表示变换点检测的分数,分数越高,发生漂移的可能性就越大,若大于0.3则认为发生了漂移。

3.3 ImageNet VID 评估

对于ImageNet VID训练/验证实验,所有训练和测试图像按600像素缩放为图像最短边的长度。这个值被选中,以便VGG16或ResNet在微调期间适合GPU内存。

表一的结果显示,在mean average precision指标上本文提出的MCMOT CPDFB比检测基线高出了9.8%,达到了74.5%。

本文此结果主要是由于MCMOT通过使用CPD来构建高精度片段的方法。简言之,CPD是本文的最大亮点。

表二是MCMOT和其他先进方法在mAP指标上的比较结果。

3.4 MOT Benchmark 2016评估

对于MOT 2016的实验,所有训练和测试图像按800像素缩放为图像最短边的长度。选择较大的值是因为行人边界框大小小于ImageNet VID。

表3. 2016年MOT基准测试的跟踪性能比较。符号表示较高的分数表示较好的表现,符号表示较低的分数表示较好的表现。表3总结了测试视频序列中MCMOT和其他技术水平的评估指标。

图5显示了测试序列中MCMOT跟踪结果的例子。

4 总结

本文提出了一种新颖的多类多目标跟踪框架。该框架超越了ImageNet VID和MOT基准2016年的最新成果.MCMOT根据检测响应延伸了无限的对象类关联。CPD模型用于观察由漂移引起的突然或异常变化。采用基于KLT的运动检测器和基于CNN的目标检测器的集合来计算可能性。未来的研究方向是处理MCMOT结构和轨道段之间的身份映射问题的优化问题。


猜你喜欢

转载自blog.csdn.net/qq_33614902/article/details/79735131