残差网络ResNet代码解读

残差网络效果

卷积神经网络CNN的发展历史如图所示：

从起初AlexNet的的8层网络，到ResNet的152层网络，层数逐步增加。当网络层数增加到一定程度之后，错误率反而上升，其原因是层数太多梯度下降变得越发困难。而ResNet解决了这一问题。

目前ResNet是应用最广的图像相关深度学习网络，图像分类，目标检测，图片分割都使用该网络结构作为基础，另外，一些迁移学习也使用ResNet训练好的模型来提取图像特征。

残差网络原理

首先，来看看比较官方的残差网络原理说明：

“若将输入设为X，将某一有参网络层设为H，那么以X为输入的此层的输出将为H(X)。一般的CNN网络如Alexnet/VGG等会直接通过训练学习出参数函数H的表达，从而直接学习X -> H(X) 。而残差学习则是致力于使用多个有参网络层来学习输入、输出之间的残差即H(X) - X即学习X -> (H(X) - X) + X。其中X这一部分为直接的identity mapping，而H(X) - X则为有参网络层要学习的输入输出间残差。”

第一次看到上述文字，我似乎明白了，但理解又不一定正确。在没看到代码之前，对VGG/ResNet的结构原理没什么感觉，几乎就是背下来哪个效果比较好，大概用了什么技术。后来看到了Pytorch中ResNet的代码，原来简单到＂五分钟包会＂的程度。用自然语言描述程序果然是把简单的问题搞复杂了。

解读核心程序

直接看代码，不学习TensorFlow的复杂结构，也不使用生涩的公式语言，而用顺序结构的Pytorch作为通往深度学习的捷径。下面来解读Pytorch官方版的ResNet实现。完整代码见；

https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

Torchvision是Torch的图像工具包，上述代码包含在Torchvision之中，同一目录下还有alexnet，googlenet，vgg的实现。ResNet代码共300多行，其中核心代码不到200行，实现了三个主要类：ResNet、BasicBlock、Bottleneck。

1．残差是什么，如何实现？

BasicBlock类中计算了残差，该类继承了nn.Module（Pytorch基本用法请见参考部分），实现了两个函数：用于创建网络结构的init和实现前向算法的forward。如下所示：

其中x是输入，out是输出，从程序代码可以看出，与基本流程不同的是，它加入了indentity，而indentity就是输入x本身（也支持下采样），也就是说，在经过多层转换得到的out上加输入数据x，即上面所说的 H(X)+X。如果设输出Y=H(X)+X，则有H(X)=Y-X，构建网络H(X)用于求取输出Y与输入X的差异，即残差。而之前的网络都是直接求从X到Y的方法。

2．BasicBlock和Bottleneck

BasicBlock类用于构建网络中的子网络结构（后称block），子网络中包含两个卷积层和残差处理。一个ResNet包含多个BasicBlock子网络。因此相对于传统网络，ResNet常被描绘成下图的结构，右侧的弧线是“+X”的操作。

Bottleneck是BasicBlock的升级版，其功能也是构造子网络，resnet18和resnet34中使用了BasicBlock，而resnet50、resnet101、resnet152使用了Bottlenect构造网络。

Bottleneck和BasicBlock网络结构对比如下图所示：

左图中的BasicBlock包含两个3x3的卷积层，右图的Bottleneck包括了三个卷积层，第一个1x1的卷积层用于降维，第二个3x3层用于处理，第三个1x1层用于升维，这样减少了计算量。

3．主控ResNet类

ResNet中最常用的是ResNet50，它兼顾了准确性和运算量。下面以RenNet50作为示例，分析构建ResNet的具体方法。

在调用_resnet创建网络时，第二个参数指定使用Bottleneck类构建子网络，第三个参数指定了每一层layer由几个子网络block构成。

下图是ResNet的初始化部分init中，用于构建网络结构的代码（建议在github查看完整代码）。

可以看到程序用函数_make_layer创建了四个层，以resnet50为例，各个层中block的个数依次是3,4,6,3个，而每个block（Bottleneck）中又包含三个卷积层，(3+4+6+3)*3共48个卷积层，外加第141行创建的另一卷积层和第154行创建的一个全连接层，总共50个主要层，这也是resnet50中50的含义。

除此以外，上述torchvision程序还提供了下载预测训练的模型参数，通过设置pretrain=True/False选择是否使用预训练的模型。

如此这般，一个ResNet就实现完成了。

参考

深度学习_卷积神经网络CNN
https://www.jianshu.com/p/49aa8f35d03e

Pytorch初探
https://www.jianshu.com/p/cd72618fe126

xieyan0811

发布了322 篇原创文章 · 获赞 246 · 访问量 119万+

他的留言板关注