计算mAP

把confidence分为11份，以11个confidence分别为阈值，计算11个recall和precision，最后计算曲线下面积。
假预测结果里面为positive的数据的个数为num，那么我们最多可以得到num个fp，最少0个fp，也就是recall的可能取值为[1/num, 2/num, ... ,1]。以这num个recall为准，计算对应的precision，最后计算曲线下面积。
考虑到一幅图中，真值不可能把所有的物体都框出来，为了保证不误判，在真值里面还会加上每张图的正负标签。比如一张图里面有狗，有人。这个是正标签。这个图里面没有房子，没有树。这个负标签。那么只有出现在正负标签中的类才会用来计算AP。也就是你判断出了标签以外的类，对最终的分数既没有好处也没有坏处。

计算fp，tp的时候，需要判断预测的box是否和真值的box重合。这里就引出了几种计算法方法
按照box重合度分：
- AP：分别计算iou阈值为0.5到0.95，步长0.05的AP的平均值
- AP50：iou阈值为0.5得到的AP
- AP75：iou阈值为0.7得到的AP
按照box大小
- APs：box面积小于32*32像素
- APm：box面积介于32*32到96*96像素
- APl：box面积大于32*32到96*96像素
如果多个预测的box和一个真值的box重合，判定第一个为tp，其他为fp。也有场合是无视多余的box。这两种方法的不同会影响precision但是不影响recall。

代码分析

main函数，输入真值的csv文件，以及预测值的csv文件。

采用2018 open images dataset challenge的评估方式，所以需要传入图片的label信息。见上面计算AP的三种方式的第三种。

主要流程为：

读入真值csv，转化为api的标准字典结构（包含box，class等各种字段）
调用object_detection_evaluation.DetectionEvaluator.add_single_ground_truth_image_info，将真值信息进行处理。
读入预测值csv，转化为api的标准字典结构（多了一个Score字段的要求）
调用object_detection_evaluation.DetectionEvaluator.add_single_detected_image_info，将预测信息进行处理。
最后调用object_detection_evaluation.DetectionEvaluator.evaluation计算出最终的各个评估值。
评估值包括：总的AP，每个类分别的AP
具体每个函数的输入输出要求请查阅源码

main函数，输入为为添加了预测结果的tfrecord（字段：standard_fields.DetectionResultFields.key）

ObjectDetectionEvaluation：对真值和预测值的处理的实际代码都在这个类里面

DetectionEvaluator：多层继承的类，负责把api的标准字典结构转化为ObjectDetectionEvaluation需要的信息