卷积网络总结（2）------DenseNet

6、2017年DenseNet

（1）思路

在提出ResNet时做出了有这样的假设:若某一较深的网络多出另一较浅网络的若干层有能力学习到恒等映射,那么这一较深网络训练得到的模型性能一定不会弱于该浅层网络.通俗的说就是如果对某一网络中增添一些可以学到恒等映射的层组成新的网路,那么最差的结果也是新网络中的这些层在训练后成为恒等映射而不会影响原网络的性能.同样DenseNet在提出时也做过假设:与其多次学习冗余的特征,特征复用是一种更好的特征提取方式.

传统的前馈体系结构可以看作是具有一种状态的算法，这种状态从一个层传递到另一个层。每个层从其前一层读取状态并将其写入后续层。它改变状态，但也传递需要保留的信息。研究提出的密集网络体系结构明确区分了添加到网络的信息和保留的信息。密集网层非常窄（例如，每层12个过滤器），仅向网络的“集体知识”添加一小组特征映射，并且保持其余特征映射不变，并且最终分类器基于网络中的所有特征映射做出决策

先给出DenseNet的整体架构，如下图：

（2）密集连接

ResNet通过前层和后层的“短路连接”，加强了前后两层之间的信息流通，在一定程度上缓解了梯度消失现象，从而可以使网络搭建的更深。更进一步，DenseNet最大化了这种前后层的信息交流，通过建立前面所有层和后面层的密集连接，实现了特征在通道维度上的复用，使其可以在参数与计算量更少的情况下实现比ResNet更优的性能。

DenseNet提升了信息和梯度在网络中的传输效率，每层都能直接从损失函数拿到梯度，并且直接得到输入信号，这样就能训练更深的网络，这种网络结构还有正则化的效果。其他网络致力于从深度和宽度来提升网络性能，DenseNet致力于从特征重用的角度来提升网络性能

上图的结构是一个完整的dense net，包括3个dense block。这种结构的好处是可以缓解梯度消失，省参数省计算，特征重用可以起到抗过拟合的作用。达到相同的精度，dense net只需要res net一半的参数和一半的计算量。

（3）降低参数冗余

DenseNet和ResNet的另外一个明显区别是，ResNet是通道求和，而DenseNet是做通道拼接，每一层网络的输入包括前面所有层网络的输出。由于concat操作的存在，在同一个Denseblock中要求feature size保持相同大小,在不同Denseblock之间设置transition layers实现Down sampling, 在作者的实验中transition layer由BN + Conv(1×1) ＋2×2 average-pooling组成.

在使用密集连接时候的网络显得比较冗余，这样会不会增大参数量呢，DenseNet很好的处理了这个问题。它将每一层都设计的特别窄，在Dense Block中的每一个单元实际上都是一个 bottleneck layer，其中包括一个 1x1 conv和一个3x3 conv。在block之间还有个transition layer，包括一个BN，一个1x1的conv和一个pooling，同样起到了降低冗余的作用，一个block中有m个feature maps，通过一个0-1之间的参数来限制输出的feature maps数量。表示将这些输出缩小到原来的多少倍，默认是0.5，这样传给下一个Dense Block的时候channel数量就会减少一半，这就是transition layer的作用。

（4）增长率（意指feature的增长率）

在Denseblock中,假设每一个非线性变换H的输出为K个feature map, 那么第i层网络的输入便为K0+(i-1)×K, 所以我们可以看到DenseNet和现有网络的一个主要的不同点:DenseNet可以接受较少的特征图数量作为网络层的输出。

原因就是在同一个Denseblock中的每一层都与之前所有层相关联,如果我们把feature看作是一个Denseblock的全局状态,那么每一层的训练目标便是通过现有的全局状态,判断需要添加给全局状态的更新值.因而每个网络层输出的特征图数量K又称为Growth rate,同样决定着每一层需要给全局状态更新的信息的多少.

（5）关于特征复用

在设计初,DenseNet便被设计成让一层网络可以使用所有之前层网络feature map的网络结构,为了探索feature的复用情况,作者进行了相关实验.作者训练的L=40,K=12的DenseNet,对于任意Denseblock中的所有卷积层,计算之前某层feature map在该层权重的绝对值平均数.这一平均数表明了这一层对于之前某一层feature的利用率,下图为由该平均数绘制出的热力图: