深度学习系列之YOLO 个人总结

YOLO这个模型虽然我不会拿来用,但YOLO2还是不错的。所以还是把YOLO做个简单的了解吧。
注意:这并不是详解!

1. Introduction

YOLO相对于基于Region proposal的模型来说,不同之处在于直接在图像上做检测和分类。因为region proposal比较费时间,无法做到real-time。所以YOLO把这个给砍掉了。当然,YOLO这种方法虽然保证了实时速度很快,但精度做了很大的牺牲。

基本流程为:
1.resize image to 448 x 448,输入到网络中。(YOLO要求图像是方形,因为最后是利用7 x 7的张量来表示分类值和位置值等)
2.运行卷积神经网络,输出 7x7x30的张量。每一个格网表示2个bbox的预测值。没错,YOLO中,总共只输出98个bbox,是不是很吃鸡。
3.非极大值抑制。虽然bbox少,但也是有重叠的情况,所以要pass掉分数低的。
具体的解释看下面。

2.YOLO

YOLO在input image前,将image划分成7 x 7的格网。
引用一下参考文献[1]中的图。
这里写图片描述
如果一个物体的中心落在某个格网内,则这个格网负责检测这个物体。
物体的中心怎么知道在哪呢?笔者认为训练时可以通过GT获取。(当然,测试时是没有的)
如图,dog的中心在(5,2)这个位置,这个位置就负责dog的训练。
测试时,是由每个格网生成2个bbox,一共98个bbox,进行回归的。
这里写图片描述
这幅图对YOLO的检测模式有一个比较形象的表示。YOLO的输出为一个7x7x30的张量。其中输出值中,每个格网1x30,表示image上对应格网的bbox值。
前5个值,表示第一个bbox的变量:
(1) x,y:表示bbox的中心在当前格网的位置相对于格网尺寸的比例
(2) w,h: 表示bbox的宽和高相对整幅图像的比例
(3) confidence: 置信度,反映bbox是否包含object,以及bbox位置预测有多准。其实也就是IoU反映的是位置预测的准不准。
后5个值,表示第二个bbox的变量。
这里写图片描述
confidence的计算公式:Pr表示包含object的概率,包含则为1,不包含则为0. IoU表示如果包含object,则bbox与GT的IoU。

最后20个值,表示 VOC数据集中20个类每类的score。即每个格网只给出一组打分值,尽管有2个bbox。
score = Pr(class|object),因为有20类,所以有20个值。

测试阶段,将这些评价值相乘,进行综合评价,主要体现在位置预测的准不准和类别分的准不准。
这里写图片描述

YOLO模型框架

根据GoogleNet修改,24个卷积层,2个FC层。
这里写图片描述

至于训练以及损失函数,就不细说了。

3.评价

YOLO它的思想主要是利用输出的7 x 7的张量来表示image上7 x 7的格网的检测情况。每个格网都有两个anchor可以预测+1组分类。
这样的弊端就是:召回率太低,容易找不全。因为如果两个物体落入一个image格网,YOLO只会给出一个预测(格网中的2个anchor只预测一类)。对小物体的检测自然而然就比较渣了。
另外定位误差大(只有2个anchor,很难将object的位置准确确定)。这样它的平均精度也会比较低

优点就是:没有了region proposal,比较快。(ssd也是把RPN给砍掉了,所以快)。同时一幅图只有98个anchor,也是提高了速度。(但这是牺牲了召回率为代价的)

4.参考文献:

1.https://blog.csdn.net/hrsstudy/article/details/70305791

猜你喜欢

转载自blog.csdn.net/leewanzhi/article/details/79677236