论文阅读——ResNet,Deep Residual Learning for Image Recognition

论文【Deep Residual Learning for Image Recognition】

神经网络模型的深度对其性能有很大影响,但越深的网络优化越困难,甚至出现层数增加而准确度反而降低的情况。本文提出一种deep residual learning framework来解决深度网络难以优化的问题。

假设H(x)是我们所期望的输入到输出的映射,通过堆叠网络直接拟合H(x)很困难,本文考虑拟合F(x) := H(x) - x,F(x)称为残差映射(residual mapping),即让网络拟合H(x)与x的差。原始函数变为H(x) := F(x) + x。文章中称新的形式使得学习难度大大降低,可以获得更好的效果。

新形式可以通过快捷连接(shortcut)实现:
在这里插入图片描述
x跳过一定层加到结果上(称为恒等映射,identity mapping),这种做法至少可以解决前面提到的浅层模型优于深层模型的问题,因为如果浅层更优,简单的将恒等映射跳过的中间层权重推向零即可。

shortcut既没有引入外部参数,又没有增加计算复杂度,通过现有框架可以轻松实现。

本文使用的F(x)有两种形式:
在这里插入图片描述
因为恒等映射相加,所以输入和输出的通道数相同,这种结构本文称为“bottleneck”。左边是50层以下残差网络使用的结构,右边一般50层以上残差网络使用。

网络结构例子:
文中以VGG19的类似网络为例,描述了相应残差网络结构。遵循相同输入尺寸滤波数量相同,特征图尺寸减半滤波器数量加倍的原则,设计34层的VGG19类似网络,并举例相应的34层残差网络结构如下:
在这里插入图片描述
残差网络在普通网络中加入shortcut结构,其中实线表示恒等连接,虚线表示维度增加的情况要特殊处理。维度增加情况下考虑两种方案:1、维度增加直接0填充增加维度。此选项不会引入额外参数。2、用1*1卷积对输入x进行投影匹配维度。

实验:
ImageNet2012分类结果,在128万张图片训练,5万张验证,10万张测试。评估top-1和top-5错误率指标。

评估18层和34层网络:
在这里插入图片描述
18层错误率是类似的,但更深的34层ResNet明显更优,ResNet结构升维采用零填充以增加维度并没有额外的参数。

普通网络深层优化困难不一定是梯度消失引起的,其原因将来会研究,用ResNet可以一定程度上解决。

ResNet 152层在ImageNet top-1和top-5错误率中胜过以前所有的方法:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/ewfwewef/article/details/108734854