Leveraging Filter Correlations for Deep Model Compression论文笔记

论文地址：http://arxiv.org/abs/1811.10559
github地址：无

本文于18年发表，提出了基于filter相关性的模型压缩方法。其特点是在建立相关性系数后对相关性强的filter进一步增强相关性，从而降低了filter剪枝后的损失。

Motivation

以往的基于重要性指标的剪枝方法没有充分考虑filter之间的冗余，仅考虑filter的重要程度，因此存在重要但冗余的filter不会被剪枝，从而在压缩冗余上做不到最优性。因此，本文提出基于filter相关性的剪枝方法提升网络压缩率。

Methods

本文提出基于filter相关性系数的迭代式剪枝过程。其框架图如图所示：

具体流程：Episode Selection阶段逐层计算任意两个filter的相关系数，将相关系数作为每对filter的重要性指标，相关系数越趋于0，则越重要，线性相关度越低；越趋于±1则越不重要，filter之间线性相关度越高。每层抽取出N个最不重要的filter对，构成第t次迭代剪枝的episode $S_t$ 。在Optimization阶段，在损失函数中加入正则化项。

$C(\theta)$ 为损失函数， $C_{S_t}$ 为正则化项，用于提高 $S_t$ 中filter对的相关系数，从而减少剪掉每对filter其中一个filter后的信息损失。 $C_{S_t}$ 表达式如下：

其中 $\rho_{XY}$ 为 $C_{S_t}$ 中filter对的皮尔森系数，可推得当 $C_{S_t}$ 减小时，指数项的相关系数增大，即达到提高相关性的作用。
Discard N Filters：该阶段从 $C_{S_t}$ 中选取前N个不重要的filter对，剪去每对中的任意一个，得到剪枝后的网络。