参考代码：无

1. 概述

导读：这篇文章提出了一种channel剪枝的算法，在网络中通过嵌入SPM（Saliency-and-Pruning Module ）模块得到卷积过程中重要的channel，之后通过一个阈值得到一个二值标志序列，之后通过将其中为0的位置“置0”从而达到网络剪枝的目的。CNN中重要的channel是通过计算特征图自身的特性（文章中为均值）之后连接一个fc得到的，之后给定一个期待的计算量开销目标，之后在训练的过程中将网络现有的开销与期望的开销计算损失，从而约束CNN网络中的channel数量。

文章的作者在一些基于分类的任务中发现了如下的亮点规律：

1）对于CNN网络中的每一层卷积其适用的剪裁比例是不一致的，因而使用固定比例的方式进行剪枝是次优的，应该以数据驱动；
2）在CNN分类网络中其实卷积中只有很少的一部分channel对某一类别有较强的反应（特征图的统计意义上），那么这就说明其中是存在较大的冗余的，是存在剪枝的空间的；

上述的两点观察可以从下图看出：
在这里插入图片描述

2. 方法设计

2.1 网络结构

文章提出的剪枝整体pipline见下图所示：
在这里插入图片描述
在上图中文章通过在每个卷积层上添加SPM模块提取出显著性（重要）的channel：
$s^l(x^{l-1})=SaliencyPrediction(x^{l-1},W)$
其中， $x^{l-1}$ 是上一层卷积输出的特征图。之后将这些显著性channel（经过阈值）得到需要剪除的部分：
$b^l(x^{l-1})=Binarize(x^{l-1})$
在得到上述的二值序列掩膜之后，便是与之前的重要性置信度组合起来，从而这一层的卷积输出描述为：
$x^l=s^l(x^{l-1})\cdot b^l(x^{l-1})\cdot BatchNorm(f^l*x^{l-1})$
其中， $f^l$ 是当前层的卷积参数。之后通过二值化的结果计算一个开销损失，从而与原本的损失函数进行联合训练。

2.2 channel重要性度量函数

在文章中对于channel重要性的度量是通过计算特征图在channel上的均值，之后经过一个FC层得到的，首先计算其均值：
$d=\frac{1}{H_{l-1}*W_{l-1}}\sum_{i=1}^{H_{l-1}}\sum_{j=1}^{W_{l-1}}x^{l-1}(i,j)$
之后再将其与一个FC连接得到预测结果：
$s^l(x^{l-1})=SaliencyPrediction(x^{l-1},W)=W_2\delta(W_1d)$
其中， $\delta$ 是ReLU。

2.3 重要性二值函数

通过上面的内容得到重要性置信度之后，文章引入了一个二值函数用以区分那些channel是需要保留的，反之就需要被剪枝。在训练的过程中文章引入了高斯噪声 $\xi\sim N(0,1)^{C_l}$ ，从而得到：
$s_1=max(0,min(1,a\cdot\sigma(s^l(x^{l-1})+\xi)-b))$
其中， $\sigma$ 是sigmoid函数， $a, b$ 是超参数。之后通过一个设定的阈值得到二值化的掩膜序列：
$s_2=\mathcal{1}(s_1\gt0.5)$

2.4 网络损失函数

除了分类网络自身的分类损失之外，文章还对网络的开销进行损失监督（这部分监督可以看作是在网络channel上去做L1正则化，使其稀疏化），其损失函数描述为：
$L_{multi}=L_{cls}+\lambda\frac{1}{N_c}\sum_{l=1}^L||s^l||_1$
其中， $\lambda$ 是通过 $p_t$ （网络估计出来剪枝之后的开销） $p_0$ （网络的总开销） $p$ （目标开销）参数组合得到的，其是一个变化的比例，其表示为：
$\lambda=\lambda_0\cdot\frac{(p_t-p)}{p_0}$

3. 实验结果

CIFAR-10：
在这里插入图片描述
CIFAR-100：

《SELF-ADAPTIVE NETWORK PRUNING》论文笔记