ShuffleNet V2网络模型学习笔记

1. Motivation

2. Practical Guidelines for Effcient Network Design

G1：Equal channel width minimizes memory access cost

G2：Excessive group convolution increases MAC

G3：Network fragmentation reduces degree of parallelism

G4：Element-wise operations are non-negligible

3. ShuffleNet V2: an Efficient Architecture

ShuffleNet V2受启发于ShuffleNet V1，但并不局限于此，通读论文，作者为轻量级网络的设计提出了一个新的指标和衡量标准，并通过一系列实验，对未来轻量级网络模型的设计提供了四点重要的思路和指导方针，最后在ShuffleNet V1的基础上进行了改进，结合四点指导方针，完成了ShuffleNet V2的构建。

Motivation

作者首先分析了现有的很多轻量级网络，例如MobileNet V2，ShuffleNet V1等，认为这些网络模型在设计和评估测试阶段，过于迷信FLOPs（每秒浮点计算量）这个指标，而对于一个网络模型的评估，不能单单只看这一个指标，很容易导致一个次优化设计的产生。作者认为，现有的FLOPs是一个间接评估准则，与直接评估准则速度(Speed)之间还存在很多不协调，不一致的地方，而导致这点不一致的原因主要有两个：

很多对速度有重要影响的因素都不在FLOPs的考虑范围之内

比如Memory access cost(MAC)，内存访问成本，这个因素对速度的影响很大，而恰恰很多能大幅度降低FLOPs的设计会很大程度上提高MAC的数值，最典型的例子就是Group Convolution，分组卷积。

再比如degree of parallelism，并行度，在同等FLOPs的条件下，具有高并行度的网络会拥有更快的运行速度。

扫描二维码关注公众号，回复： 5651075 查看本文章

具有相同FLOPs的操作在不同的环境配置下有着不同的运行时间

通常来说， $3\times 3$ 的卷积层要比 $1\times 1$ 的卷积层花费更多的计算时间，但在最新版本的CUDNN库的环境下，由于专门对 $3\times 3$ 的卷积操作进行了优化，实际运行速度并不比 $1\times 1$ 的卷积层慢上多少。

针对以上两点，对于一个高效率网络模型的设计，作者提出了两个应该考虑的准则：

应该用直接的评估标准(Speed)替代间接的评估标准(FLOPs)
根据所配置的目标环境，对网络模型进行评估

基于以上的motivation，作者展开了更进一步的实验，并提出了四点实际高效率网络模型设计应该遵守的四点原则。

Practical Guidelines for Effcient Network Design

首先是作者的实验环境，作者在两个设备上(GPU and ARM)上进行了对比实验，打开了完全优化选项，输入图像的尺寸为 $224\times 224\times 3$ ，网络模型采用随机初始化，并评估100次，采用平均运行时间。

作者使用MobileNet V2和ShuffleNet V1，在GPU和ARM两个设备上进行了实验，并根据网络模型各个操作的运行时间，绘制出了比例图：

从上图中可以发现，即便是同一网络模型，在不同设备中的运行时间都有着非常明显的差异，这里，作者认为FLOPs主要可以用Conv代表，大部分计算都发生在Conv中，可以很清楚地看出Conv，也就是FLOPs，在GPU上所占的运行时间比例不过是50%到54%，而剩下近一半对运行时间，运行速度有影响的因素（例如数据输入输出，数据洗牌，逐元素操作等等），都无法用FLOPs这个指标去衡量，所以作者认为，对于网络模型的运行时间来说，FLOPs并不是一个足够准确的度量标准。

从上图的(c)(d)能发现，对于一个相同的FLOPs，不同模型间的数据处理速度可以说是天差地别。

基于以上观察，为了设计出一个高效率的轻量级网络模型，作者提出了四点不应违反的设计准则：

G1：Equal channel width minimizes memory access cost

作者在这里，我们假设有一个逐点卷积层，尺寸是 $1\times 1\times c_{1}\times c_{2}$ ，输入图片的尺寸是 $h\times w\times c_{1}$ ，那么我们得到的输出就是 $h\times w\times c_{2}$ ，这里我们的浮点计算量是 $B= hwc_{1}c_{2}$ ，另一方面，内存访问成本(MAC)则是 $M= hw\left ( c_{1}+c_{2} \right )+c_{1}c_{2}$ ，这里的前一项，是输入输出feature map的权重参数数，后一项是卷积核的权重参数数，这里，作者根据均值不等式计算，得出了以下结果： $M\geq 2\sqrt{hwB}+\frac{B}{hw}$ ，而这个不等式只有当 $c_{1}= c_{2}$ 的时候，等号成立。

从这里可以发现，MAC是存在一个下界的，这个下界只有当输入和输出feature map的通道数相等的时候才成立，于是作者认为，在设计网络模型的时候，应该注意尽量让feature map在通过卷积层前后，通道数保持一致。

作者做了一系列实验来验证这个理论：

上图是作者所做验证实验的结果Table，可以看出，当输入输出通道数一致的时候，数据处理速度是最快的，而当 $c1:c2$ 这个数值的缩小，feature map经过卷积层前后的通道数差异越大，网络模型的运行速度明显变慢了，验证了作者的想法。同时，还可以注意的是，随着 $\left ( c_{1},c_{2} \right )$ 的数值不断膨胀，网络模型的运行速度也显著降低了，这是显而易见的。

G2：Excessive group convolution increases MAC

在ShuffleNet V1中，大量使用了Group Convolution（分组卷积）来降低FLOPs，作者在实际测验评估之后，得出结论：Group Convolution确实能够大幅度降低FLOPs（几乎一个量级），但作为代价，也会同时大幅度提高MAC，一方面，它能在给定的FLOPs环境下，尽可能利用更多的通道数，提高网络能力，另一方面也会显著增加内存的消耗。

对于一个 $1\times 1$ 的group convolution，它的MAC可以表示为：

$M= hw\left ( c_{1}+c_{2} \right )+\frac{c_{1}c_{2}}{g}= hwc_{1}+\frac{Bg}{c_{1}}+\frac{B}{hw}$

上式中， $B= \frac{hwc_{1}c_{2}}{g}$ ，代指group convolution的FLOPs，可以看出，随着参数 $g$ 的增大，FLOPs确实降低了一个量级，但对于给定的FLOPs（即 $B$ 恒定），MAC会随着参数 $g$ 的增加而增加，作者同样也做了实验进行验证：

上图是作者验证实验的结果Table，随着参数 $g$ 的增加，网络模型的运行速度明显降低了，证明了作者的想法，与前一点一致，随着feature map通道数的膨胀，网络模型的速度逐渐下降。这里， $c= c_{1}+c_{2}$ ，用于控制四组实验的FLOPs保持一致。

G3：Network fragmentation reduces degree of parallelism

这里，作者认为，一个网络的block中，如果分支越多，那么网络模型的运行速度就会越慢，这里的分支既包括串行，也包括并行，回顾ShuffleNet V1，我们可以发现，一个进行下采样的ShuffleNet Unit中，包含了四个以上的串行分支和一个并行分支，大大增加了内存与模型运行的负担，作者根据这个理论，进行了验证实验：

上图是作者验证试验的结果Table，2-fragment-series代表着一个block里面存在着两个串行的卷积层，4-fragment-series则代表着四个串行的卷积层，2-fragment-parallel代表一个block里面存在两个并行的卷积层，以此类推。可以清楚地看出，随着block中分支数目的增加，网络运行速度不断下降，而相比于串行，并行对网络模型运行的负担更为严重，速度下降的更多。

G4：Element-wise operations are non-negligible

Element-wise operations，最常见的比如ReLU，AddTensor，AddBias等等，作者在这里泛指了一种具有低FLOPs，高MAC的操作，比如在MobileNet V2和ShuffleNet V1里面都广泛使用的DepthWise Convolution操作就是一种典型的具有极地FLOPs和极高MAC的操作，因此为了加速网络模型，就要在满足一定的FLOPs的情况下，尽可能减少这类操作的数量。

上图是作者根据ResNet的一个bottleneck block做得验证试验，可以看见，当element-wise operations数目减少(ReLU and short-cut)，网络模型速度得到了较为明显地提高，证明了作者的理论。

ShuffleNet V2: an Efficient Architecture

根据上述作者的结论和四个设计指导原则，作者在ShuffleNet V1的基础上，做出改进，提出了ShuffleNet V2版本。

上图是ShuffleNet V1 Unit(a)(b)和在此基础上改进得来的ShuffleNet V2 Unit(c)(d)。

先对比不进行下采样的(a)和(c)，我们首先可以发现，ShuffleNet V2 Unit在一开始引入了一个Channel Split，主要功能是将输入的feature map按照其通道数 $c$ 分割成 $c{}'$ 与 $c-c{}'$ ，这里其实相当于一个分组操作，可以减少FLOPs，用于替代后续被替换掉的Group Convolution，同时，为了对应G1原则，作者在这里取 $c{}'= \frac{c}{2}$ ，等于将输入feature map在通道维度上二等分；其次，在右边的串行分支中， $1\times 1$ 的group convolution被替换成了普通的 $1\times 1$ 卷积层，因此不需要Channel Shuffle，也删掉了后续的Channel Shuffle，这与G2原则相适应；之后将element-wise operation Add的操作替换成了Concat，与G4原则相对应；然后在最后的输出前加入Channel Shuffle，正如之前所说，最初的Channel Split其实是一个分组的操作，于是便需要在输出前进行Shuffle，来保持组间存在信息交流，增加信息表达能力；还有一点，因为这个Unit不进行下采样，通道数也保持不变，在网络模型中经常会重复多次，在重复多次的过程中，Channel Shuffle，Channel Split，Concat这三个操作可以合并在一起减少串行数目，与G3原则相适应。

再对比(b)和(d)，与(a)和(c)类似，group convolution被普通的卷积层替代，左边分支的平均池层用一个DW和PW替代，因为没有Channel Split操作，最后进行Concat的时候，通道数翻倍，这时可以理解成变成了两组拥有和输入相同通道数的输出，于是同样要进行Channel Shuffle操作，而在后续连接(c)的时候，Channel Shuffle，Channel Split，Concat三个操作同样可以合并在一起。

最后这个是ShuffleNet V2的完整网络模型，除了ShuffleNet Unit发生了变化外，整体网络模型的变化不大，唯一的变化点是在GlobalPool前面增加了一个 $1\times 1$ 的卷积层，用于混合特征。