YOLOV3论文阅读(学习笔记三)

cv小白的yolov3学习笔记总结

3.How We Do

部分原文:
yolov3在COCO奇怪的[email protected]:0.95上和ssd效果是差不多的,在另一个指标上比ssd快三倍。不过yolov3仍然落后于在这个指标上像RetinaNet的其他网络。
然而在IOU=0.5(或图表中的AP50)时,yolov3的效果是非常好的,几乎可以和RetinaNet相媲美,,并且显著超过了SSD变种。这表明YOLOv3在低IOU阈值下的性能是非常好的。然而随着IOU阈值的增加,性能显著下降,这表明YOLOv3在高IOU阈值条件下的表现是不尽人意的。
在过去yolov在小物体检测上效果并不是很好,然而现在情况已经反转。随着新的多尺度预测,我们看到yolov3有更好的APs性能
在这里插入图片描述
笔记:
由图表可知,yolov3在AP50时效果是比较好的(红色框),在AP和AP75条件下效果并不好(绿色框)

S:小物体,area(框大小)<32×32
M:中物体,32×32<area<96×96
L:大物体,96×96<area
APs:小目标的AP(剩下两个同理)
我们可以从表右下角得知,在小目标上的性能(18.3)是很好的,在中物体和大物体上的性能并不好(分别为35.4和41.9)
yolov3之前版本在小目标和密集目标检测上效果较差,以yolov1为例,yolov1将每张图像划分为7×7个grid cell,每一个grid cell只能预测出一个物体,即整张图最多只能预测出49个物体,一旦物体个数超过49个,yolov1就难以预测;并且如果两个物离得很近,密集目标也无法预测。

yolov3在小目标\密集目标的改进:
1.grid cell个数增加,yolov1(7×7),yolov2(13×13),yolov3(13×13+26×26+52×52)
2.yolov2和yolov3可以输入任意大小的图片,输入图片越大,产生的grid cell越多,产生的预测框也就越多
3.专门小目标预先设置了一些固定长宽比的anchor,直接生成小目标的预测框是比较难的,但是在小预测框基础上再生成小目标的预测框是比较容易的
4.多尺度预测(借鉴了FPN),既发挥了深层网络的特化语义特征,又整合了浅层网络的细腻度的像素结构信息
5.对于小目标而言,边缘轮廓是非常重要的,即浅层网络的边缘信息。在损失函数中有着惩罚小框项
6.网络结构:骨干网络加了跨层连接和残差连接(shortcut connection),这样可以整合各个层的特征,这样使得骨干网络本身的特征提取能力变好了

4.Things We Tried That Didn’t Work

部分原文:
在开发 YOLOv3 时,我们尝试了很多东西。很多都没有奏效。以下这些是我们记下来的一些东西。
锚框 x, y 偏移预测。我们尝试使用正常的锚框预测机制,使用x、y 线性偏移量预测为框宽度或高度的倍数。我们发现这种方式降低了模型的稳定性并且效果不佳。(预测相对于初始Anchor宽高倍数作为偏移量,预测框不受约束)
直接使用 x, y线性回归偏移量预测而不用sigmoid函数。我们尝试使用线性激活来直接预测 x,y 偏移而不是逻辑激活。这导致mAP下降了几个点。
Focal loss。我们尝试使用Focal loss。它使我们的mAP下降了大约 2 个点。 YOLOv3 可能已经对焦点损失试图解决的问题具有鲁棒性,因为yolov3采用了分离的置信度和条件类别概率。对于大多数例子来说,具体是什么原因,我们并不完全确定。
双IOU阈值和真值分配。 Faster RCNN在训练期间采用了两个IOU阈值。对于所有地面实况对象而言,如果IOU阈值大于0.7判定为正样本,小于0.3则为负样本,在0.7和0.3之间的被忽略。在yolov3中我们尝试了类似的方法,但没有得到好的结果。
我们非常喜欢我们目前的表述,它似乎至少处于局部最优状态。其中一些技术可能最终会产生良好的结果,也许它们只需要一些调整来稳定训练。

笔记:
Focal loss解决的是单阶段目标检测(ssd,yolov,RetinaNet等)正负样本不均衡,真正有用的负样本少的问题。相当于是某种程度的难例挖掘
yolov3中负样本的IOU阈值设置的过高(0.5),导致负样本中混入了正样本。正样本就会被赋予label noise,而Focal loss又会给label noise赋予更大的权重值,因此效果不好

RetinaNet的论文指出:单阶段目标检测不缺正样本,缺的是高质量的负样本。使用双IOU阈值只能增加正样本的个数,而负样本还是按照小于某个IOU阈值的方法去筛选。

5.What This All Means

第五部分是作者对未来的展望

以上笔记结束

猜你喜欢

转载自blog.csdn.net/thy0000/article/details/123765777