目标跟踪的评价指标

一、单目标跟踪的评价指标

1.Precision plot

追踪算法估计的目标位置（bounding box）的中心点与人工标注（ground-truth）的目标的中心点，这两者的欧式距离小于给定阈值的视频帧的百分比。不同的阈值，得到的百分比不一样，因此可以获得一条曲线。一般阈值设定为20个像素点。

缺点：没有考虑到目标的大小，导致小目标即使预测框与Ground Truth框相距较远，但它们的欧式距离仍在20像素内。（需要归一化

KCF追踪算法论文中给出的曲线如下：
精确度

2.Success Plot

首先定义重合率得分（overlap score，OS），追踪算法得到的bounding box（记为a），与ground-truth给的box（记为b），重合率定义：
$={|a∩b|\over|a∪b|}$
|·|表示区域的像素数目。当某一帧的OS大于设定的阈值时，则该帧被视为成功的（Success），总的成功的帧占所有帧的百分比即为成功率（Success rate）。OS的取值范围为0~1，因此可以绘制出一条曲线。一般阈值设定为0.5。

MDNet追踪算法中precision plots和Success plots如下：

以上两种常见的评估方式一般都是用ground-truth中目标的位置初始化第一帧，然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这种方法有2个缺点：

一个跟踪算法可能对第一帧给定的初始位置比较敏感，在不同位置或者帧初始会造成比较大的影响。
大多数算法遇到跟踪失败后没有重新初始化的机制。

针对上述两个问题，又提出以下几种评估方法。

鲁棒性评估

通过从时间（temporally，从不同帧起始）和空间（spatially，不同的bounding box）上打乱，然后进行评估。可以分为：temporal robustness evaluation (TRE) 和 spatial robustness evaluation (SRE)。

TRE（Temporal robustness evaluation）

在一个图片/视频序列中，每个跟踪算法从不同的帧作为起始进行追踪（比如分别从第一帧开始进行跟踪，从第十帧开始进行跟踪等），初始化采用的bounding box即为对应帧标注的ground-truth。最后对这些结果取平均值，得到TRE score。

SRE（Spatial robustness evaluation）

由于有些算法对初始化时给定的bounding box比较敏感，而目前测评用的ground-truth都是人工标注的，因此可能会对某些跟踪算法产生影响。因此为了评估这些跟踪算法是否对初始化敏感，作者通过将ground-truth轻微的平移和尺度的扩大与缩小来产生bounding box。平移的大小为目标物体大小的10%，尺度变化范围为ground-truth的80%到120%，每10%依次增加。最后取这些结果的平均值作为SRE score。
C-COT跟踪算法中针对 Overlap 的 TRE 和 SRE plot 如下：
时空鲁棒性评价

二、多目标跟踪的评价指标

1.MOTA（Multi-Object Tracking Accuracy）

首先需要了解的是：

fragmentation是在第t帧当中发生的ID分配错误(ID switch)。也就是说，如果在ground truth第j个轨迹的第t帧之前，跟踪器(tracker)把该轨迹的ID都预测正确了，但是第t+1帧预测错误了，那么ID switch的个数+1，值得注意的是，即使第t+1帧之后跟踪器仍然把该轨迹的ID预测错误了，但是错误的ID为同一个，那么ID switch个数不会增加。举个直观一点的例子，假设周杰伦在第1帧的时候走入镜头，在第100帧的时候走出镜头，跟踪器的boungding box一直能够跟上，但是在第50帧的时候把周杰伦识别成了彭于晏，那么这100帧内ID switch的个数为1。假设第t帧中ID switch的个数为Φ_t，那么所有帧的个数为Φ = ∑_t Φ _t。
false positive 指的是在第t帧中，跟踪器检测到了的bounding box但是在ground truth中却不存在bounding box的个数。
false negative 指的是在第t帧中，跟踪器漏检了的bounding box但是在ground truth中存在bounding box的个数。
true positive 指的是在第t帧中，跟踪器和ground truth同时都有的bounding box。
大写的TP , FP , FN 就是true positive, false positive, false negative在所有帧中的总和（注意，只考虑bounding box，没有考虑bounding box的ID，也就是说，只要框住了就算TP，ID错了也算TP）。
$MOTA={1-{FN+FP+Φ\over{T}}}$
其中T指的是ground truth中bounding box的数量。可以看出，MOTA其实是对FN、FP、Φ进行了惩罚，然后又利用T进行正则。

2.IDF1

${IDTP\over{IDTP+IDFP}}$
$IDR={IDTP\over{IDTP+IDFN}}$
$IDF1={2IDTP\over{2IDTP+IDFP+IDFN}}$
IDP其实就是ID+Precision，这里的IDP其实就是把每个ID当作单独的一类去计算Precision，同理，IDR则对应ID+Recall，IDF1则对应ID+F1 score，IDF1本质上没有什么实际物理含义，只是对IDP和IDR的一个调和平均。