Darknet_Yolov3模型搭建

Darknet_Yolov3模型搭建

YOLO(You only look once)是目前流行的目标检测模型之一,目前最新已经发展到V3版本了,在业界的应用也很广泛。YOLO的特点就是“快”,但由于YOLO对每个网格只预测一个物体,就容易造成漏检,对物体的尺度相对比较敏感,对于尺度变化较大的物体泛化能力较差。YOLO的基本原理是:首先对输入图像划分成7x7的网格,对每个网格预测2个边框,然后根据阈值去除可能性比较低的目标窗口,最后再使用边框合并的方式去除冗余窗口,得出检测结果,如下图:

 

 Darknet卷积模块

Yolo系列的作者把yolo网络叫做Darknet,其实其他神经网络库都已经把卷积层写好了,直接堆叠起来即可。

darknet卷积模块是这个模型里最基本的网络单元,包括卷积层、batch norm(BN)层、激活函数,因此类型命名为 DarknetConv2D_BN_Leaky。原keras实现是卷积层加了L2正则化预防过拟合,Pytorch是把这个操作放到了Optimizer中,所以将在第三部分讲解。

用Pytorch需要注意, 如果训练的时候GPU显存不大,batch size设的很小,这时候就要考虑训练数据集的分布情况。举个例子,加入的batch size设成了1,但数据每张图差别都很大,这会导致的网络一直在震荡,即使网络能够训练到很低的training loss,

在做预测的时候效果也不好,这主要是BN造成的。因为每批数据的统计量(均值和方差)都不同,而且差别大,这就导致网络训练学不到好的BN层的统计量。如果直接去掉BN层,会发现网络训练非常慢,所以BN层还是要加的,好在Pytorch里的BN有个接口来控制要不要记住每批训练的统计量,即track_running_stats=True,如果训练的batch size不能设特别大,就把它改成False。

卷积层、BN层说完了,激活函数Yolo里用的是0.1的LeakReLU,本实验与ReLU没什么明显的区别。

结构很简答,这部分直接上代码,不画图了。

扫描二维码关注公众号,回复: 11163188 查看本文章

 

import torch.nn as nn

import torch

class DarknetConv2D_BN_Leaky(nn.Module):

    def __init__(self, numIn, numOut, ksize, stride = 1, padding = 1):

        super(DarknetConv2D_BN_Leaky, self).__init__()

        self.conv1 = nn.Conv2d(numIn, numOut, ksize, stride, padding)#regularizer': l2(5e-4)

        self.bn1 = nn.BatchNorm2d(numOut)

        self.leakyReLU = nn.LeakyReLU(0.1)

 

    def forward(self, x):

        x = self.conv1(x)

        x = self.bn1(x)

        x = self.leakyReLU(x)

        return x

 

残差模块

残差模块是借鉴了ResNet,残差模块是为了保证深的模型能够得到很好的训练。残差模块ResidualBlock,对外接口有numIn, numOut, numBlock,分别控制模块的输入通道数,输出通道数(卷积核数)和残差模块的堆叠次数。下图是一个numBlock = 2 的模型,注意这里CONV是指上一部分说的Darknet卷积模块,第一个模块(D2)表示是这个卷积模块stride = 2,顺便执行了2倍降采样操作。也就是说特征每经过一个残差模块,分辨率降为原来的一半。

 

 class ResidualBlock(nn.Module):

    def __init__(self, numIn, numOut, numBlock):

        super(ResidualBlock, self).__init__()

        self.numBlock = numBlock

        self.dark_conv1 = DarknetConv2D_BN_Leaky(numIn, numOut, ksize = 3, stride = 2, padding = 1)

        self.dark_conv2 = []

        for i in range(self.numBlock):

            layers = []

            layers.append(DarknetConv2D_BN_Leaky(numOut, numOut//2, ksize = 1, stride = 1, padding = 0))

            layers.append(DarknetConv2D_BN_Leaky(numOut//2, numOut, ksize = 3, stride = 1, padding = 1))

            self.dark_conv2.append(nn.Sequential(*layers))

        self.dark_conv2 = nn.ModuleList(self.dark_conv2)

    def forward(self, x):

        x = self.dark_conv1(x)

        for convblock in self.dark_conv2:

            residual = x

            x = self.convblock(x)

            x = x + residual

        return x

  

后端输出模块

后端输出模块是一个三次降采样(三次升采样在下一部分介绍),这三次降采样+三次升采样,类似Encoder-Decoder的FCN模型。这是为了在三种不同尺度上预测。本系列将在voc2007上训练,训练前输入图片要resize到256x256,那么这三种尺度分别是32x32,16x16,8x8。这一部分是因为图片中的目标有大有小,为了保证从不同尺度上找到最好尺度的特征图来进行预测。当然准确提升的同时,由于分辨率有提升,计算量又有一定的增加,索性这里的分辨率不大。下图所示为最后输出模块,这个模块有两个输出,一个是用作下一个模块的输入,一个是用于输出目标检测结果,即坐标、类别和目标置信度,这一部分将在下一篇详细介绍。注意红色的Conv不是DarknetConv2D_BN_Leaky,而是指普通的卷积模块。

 

 class LastLayer(nn.Module):

    def __init__(self, numIn, numOut, numOut2):

        super(LastLayer, self).__init__()

        self.dark_conv1 = DarknetConv2D_BN_Leaky(numIn, numOut, ksize = 1, stride = 1, padding = 0)

        self.dark_conv2 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

        self.dark_conv3 = DarknetConv2D_BN_Leaky(numOut*2, numOut, ksize = 1, stride = 1, padding = 0)

        self.dark_conv4 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

        self.dark_conv5 = DarknetConv2D_BN_Leaky(numOut*2, numOut, ksize = 1, stride = 1, padding = 0)

       

        self.dark_conv6 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

        self.conv7 = nn.Conv2d(numOut*2, numOut2, 1, stride = 1, padding = 0)

   

    def forward(self, x):

        x = self.dark_conv1(x)

        x = self.dark_conv2(x)

        x = self.dark_conv3(x)

        x = self.dark_conv4(x)

        x = self.dark_conv5(x)

        y = self.dark_conv6(x)

        y = self.conv7(y)

        return x,y

  

Yolov3模型

基本的模块已经定义好,Yolov3的模型就是把这些模型叠加起来。注意下图就是Yolov3的简化模型,数字表示该上一个模块的输出特征尺寸(CxHxW),相应的颜色对应相应的模块。

 

 class Yolov3(nn.Module):

    def __init__(self, numAnchor, numClass):

        super(Yolov3, self).__init__()

        self.dark_conv1 = DarknetConv2D_BN_Leaky(3, 32, ksize = 3, stride = 1, padding = 1)

        self.res1 = ResidualBlock(32, 64, 1)

        self.res2 = ResidualBlock(64, 128, 2)

        self.res3 = ResidualBlock(128, 256, 8)

        self.res4 = ResidualBlock(256, 512, 8)

        self.res5 = ResidualBlock(512, 1024, 4)

        self.last1 = LastLayer(1024, 512, numAnchor*(numClass+5))

        self.up1 = nn.Sequential(DarknetConv2D_BN_Leaky(512, 256, ksize = 1, stride = 1, padding = 0),

                                 nn.Upsample(scale_factor=2))

        self.last2 = LastLayer(768, 256, numAnchor*(numClass+5))

        self.up2 = nn.Sequential(DarknetConv2D_BN_Leaky(256, 128, ksize = 1, stride = 1, padding = 0),

                                 nn.Upsample(scale_factor=2))

        self.last3 = LastLayer(384, 128, numAnchor*(numClass+5))

       def forward(self, x):

        x = self.dark_conv1(x)#32x256x256

        x = self.res1(x)#64x128x128

        x = self.res2(x)#128x64x64

        x3 = self.res3(x)#256x32x32

        x4 = self.res4(x3)#512x16x16

        x5 = self.res5(x4)#1024x8x8

       

        x,y1 = self.last1(x5)#512x8x8,

        x = self.up1(x)#256x16x16

        x = torch.cat((x, x4), 1)#768x16x16

        x,y2 = self.last2(x)#256x16x16

        x = self.up2(x)#128x32x32

        x = torch.cat((x, x3), 1)#384x32x32

        x,y3 = self.last3(x)#128x32x32

       return y1,y2,y3

 

 到这里模型已经完成,模型代码结构非常清晰。有人可能会问,为什么要这种堆叠方式,其实自己根据新的需求定义网络结构完全可以,但是要注意模型深度增加时如何保证收敛,如何加速模型训练,同时输出特征的分辨率要计算好。

猜你喜欢

转载自www.cnblogs.com/wujianming-110117/p/12813874.html