单阶段目标检测算法YOLOv3

YOLOv3从v1和v2的基础上进行改进,主要如下: 

(1)更大的骨干网络DarkNet-53,可以进行多尺度预测,跨尺度特征融合

(2)多尺度预测,最终是3个尺度的特征图上目标检测

Darknet-53骨干网络进行特征提取,网络分为5个阶段,经过每个绿色的res是一个2倍的下采样,最多是32倍

32倍的下采样再经过特征提取后输出为y1的特征图 32倍到输出中间的特征图拿出来和上一次的16倍下采样进行拼接,拼接之前对32倍的下采样进行上采样使其和16倍下采样的特征图变成一样大小,2者进行concat再进行特征提取输出第二张特征图y2 第三张特征图的输出类似 3张特征图y1,y2,y3分别对应32,16,8倍的下采样

网络输入[N,3,416,416],N为输入的图片batch_size的数目,3是RGB通道 输出的每个点的特征图信息C=B*(5+class_num),其中5为4+1,即4个坐标信息和1个目标置信度,class_num为80,B为该点对应的anchor的数目,每个特征图的总输出为n*n*255

针对3种不同的下采样,会得到3*3种不同的anchor,例如对于32倍下采样得到的特征图(13*13),特征图上的每个点相当于原图中32*32的局部区域,每个点都会有3种尺度的anchor,最终得到的特征图为h*w,相当于将原图分为h*w个网格,每个网格对应特征图上的一个点

中心点偏移使用了sigmoid函数,在计算特征图时,特征点的取值范围可能负无穷到正无穷并且期望中心点偏移的范围还是在0到1之内,不管tx,ty取多少,取sigmoid函数后偏移小 宽高拉伸使用了指数函数,因为希望得到的宽、高都是正数

猜你喜欢

转载自blog.csdn.net/ziqingnian/article/details/108967582