残差网络ResNet代码解读

残差网络效果

卷积神经网络CNN的发展历史如图所示:

从起初AlexNet的的8层网络,到ResNet的152层网络,层数逐步增加。当网络层数增加到一定程度之后,错误率反而上升,其原因是层数太多梯度下降变得越发困难。而ResNet解决了这一问题。

目前ResNet是应用最广的图像相关深度学习网络,图像分类,目标检测,图片分割都使用该网络结构作为基础,另外,一些迁移学习也使用ResNet训练好的模型来提取图像特征。

残差网络原理

首先,来看看比较官方的残差网络原理说明:

“若将输入设为X,将某一有参网络层设为H,那么以X为输入的此层的输出将为H(X)。一般的CNN网络如Alexnet/VGG等会直接通过训练学习出参数函数H的表达,从而直接学习X -> H(X) 。而残差学习则是致力于使用多个有参网络层来学习输入、输出之间的残差即H(X) - X即学习X -> (H(X) - X) + X。其中X这一部分为直接的identity mapping,而H(X) - X则为有参网络层要学习的输入输出间残差。”

第一次看到上述文字,我似乎明白了,但理解又不一定正确。在没看到代码之前,对VGG/ResNet的结构原理没什么感觉,几乎就是背下来哪个效果比较好,大概用了什么技术。后来看到了Pytorch中ResNet的代码,原来简单到"五分钟包会"的程度。用自然语言描述程序果然是把简单的问题搞复杂了。

解读核心程序

直接看代码,不学习TensorFlow的复杂结构,也不使用生涩的公式语言,而用顺序结构的Pytorch作为通往深度学习的捷径。下面来解读Pytorch官方版的ResNet实现。完整代码见;

https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

Torchvision是Torch的图像工具包,上述代码包含在Torchvision之中,同一目录下还有alexnet,googlenet,vgg的实现。ResNet代码共300多行,其中核心代码不到200行,实现了三个主要类:ResNet、BasicBlock、Bottleneck。

1.残差是什么,如何实现?

BasicBlock类中计算了残差,该类继承了nn.Module(Pytorch基本用法请见参考部分),实现了两个函数:用于创建网络结构的init和实现前向算法的forward。如下所示:

其中x是输入,out是输出,从程序代码可以看出,与基本流程不同的是,它加入了indentity,而indentity就是输入x本身(也支持下采样),也就是说,在经过多层转换得到的out上加输入数据x,即上面所说的 H(X)+X。如果设输出Y=H(X)+X,则有H(X)=Y-X,构建网络H(X)用于求取输出Y与输入X的差异,即残差。而之前的网络都是直接求从X到Y的方法。

2.BasicBlock和Bottleneck

BasicBlock类用于构建网络中的子网络结构(后称block),子网络中包含两个卷积层和残差处理。一个ResNet包含多个BasicBlock子网络。因此相对于传统网络,ResNet常被描绘成下图的结构,右侧的弧线是“+X”的操作。

Bottleneck是BasicBlock的升级版,其功能也是构造子网络,resnet18和resnet34中使用了BasicBlock,而resnet50、resnet101、resnet152使用了Bottlenect构造网络。

Bottleneck和BasicBlock网络结构对比如下图所示:

左图中的BasicBlock包含两个3x3的卷积层,右图的Bottleneck包括了三个卷积层,第一个1x1的卷积层用于降维,第二个3x3层用于处理,第三个1x1层用于升维,这样减少了计算量。

3.主控ResNet类

ResNet中最常用的是ResNet50,它兼顾了准确性和运算量。下面以RenNet50作为示例,分析构建ResNet的具体方法。

在调用_resnet创建网络时,第二个参数指定使用Bottleneck类构建子网络,第三个参数指定了每一层layer由几个子网络block构成。

下图是ResNet的初始化部分init中,用于构建网络结构的代码(建议在github查看完整代码)。

可以看到程序用函数_make_layer创建了四个层,以resnet50为例,各个层中block的个数依次是3,4,6,3个,而每个block(Bottleneck)中又包含三个卷积层,(3+4+6+3)*3共48个卷积层,外加第141行创建的另一卷积层和第154行创建的一个全连接层,总共50个主要层,这也是resnet50中50的含义。

除此以外,上述torchvision程序还提供了下载预测训练的模型参数,通过设置pretrain=True/False选择是否使用预训练的模型。

如此这般,一个ResNet就实现完成了。

参考

深度学习_卷积神经网络CNN
https://www.jianshu.com/p/49aa8f35d03e

Pytorch初探
https://www.jianshu.com/p/cd72618fe126

发布了322 篇原创文章 · 获赞 246 · 访问量 119万+

猜你喜欢

转载自blog.csdn.net/xieyan0811/article/details/103232621