paper阅读：Rethinking the smller-norm-less-informative assumption

链接：https://arxiv.org/abs/1802.00124

background

pruning是一种广泛使用的模型压缩方法，它不仅有利于减少计算消耗，也可能有助于避免模型训练过拟合。

related work and the limit

目前，很大一部分剪枝的工作基于“smaller-norm-less-informative”的假设来实现。但该假设在有的时候并不一定成立（“regularization-based pruning techniques potentially hurting them being widely applicable, especially for those that regularize high-dimensional tensor parameters or use magnitude-based pruning methods”）。

有一些类似的工作，如Huang & Wang (2017) 使用一个额外的缩放因子来进行实现。Slimming和我们一样借助BN层的scale因子实现模型的稀疏化，但它并未证明其方法在大的预训练模型上的有效性。不同于这两种方法，我们基于ISTA和一种rescale trick提出了一种新的方法。

novel points

本文首先对于“smaller-norm-less-informative”进行了研究，该假设认为，删除那些系数较小的feature不会产生较大的误差。因此使用易处理的范数对模型优化中的参数进行正则化，并通过比较训练后的范数大小挑选那些“重要”的参数。但该假设的成立是有条件限制的。首先，使用Lasso回归或岭回归来选择线性回归中的重要预测变量，首先需要将每个变量进行标准化，否则结果将无法解释。对于非凸优化，通常很难满足正则化操作的归一化条件。文中举出了种情况证明了正则化的失败或使用受限：

1、对于不同层之间进行细粒度的正则化操作，很难实现统一的归一化。一般需要实现复杂的层间统一惩罚项或着采用重参数化的方法。

2、卷积权重正则化有时与BN不兼容。

因此本文提出，不再使用简单的权重参数正则化，而是借用BN的γ参数来实现，有两个重要原因：

1、 γ都是与归一化的输入相乘，因此通过测量γ的大小，整个网络的通道重要性在不同层之间可以实现比较；

2、连续的卷积层都进行BN操作，则可以避免不同层的重参数化效果，或者说，γ参数比例变化的影响在不同层之间是独立的。（？？？有没有证明）

methodology

该部分受限证明了输出为constant的通道，裁剪其并不会带来误差，文中提出了一种使用ISTA的限制来驱使网络训练，使得部分γ向着0的方向学习。具体的算法操作比Slimming中较复杂，未进行详细地研究。

扫描二维码关注公众号，回复： 12560773 查看本文章

evaluation(benchmark, experiments design)

基于Cifar-10，ImageNet和实例分割的数据集上进行了实验，文章是早期的工作，因此效果在目前来看已经不属于第一梯队，主要关注ImageNet上的结果如下：

Thoughts:

1、 is this problem very meaningful? is the idea interesting and inspired?

smaller-norm-less-information是很多剪枝工作中的一个公认假设，本文对其进行研究，是很有意义的。提出的基于ISTA的方法，目前看来使用频率其实低于Slimming中提出的直接对γ的L1-Norm进行衡量及稀疏化的方法。

2、 does the paper clearly explained the considerations and implement?

算法部分还需要对照代码来理解

3、 what’s the tradeoff?

只能对带BN的网络进行，不过BN基本已经广泛使用。

4、 other consideration.

a．文中提到“连续的卷积层都进行BN操作，则可以避免不同层的重参数化效果，或者说，γ参数比例变化的影响在不同层之间是独立的”，如何证明？

按照本文中的论证，如何来证明Slimming中方法的普适性