系统学习深度学习(四十七)--DSD

论文:DSD: Dense-Sparse-Dense Training for Deep Neural Networks
论文链接:https://arxiv.org/pdf/1607.04381.pdf
模型下载地址:https://songhan.github.io/DSD.

这是Song Han发在ICLR2017上的文章,我们知道Song Han的研究领域主要是模型压缩,模型加速等,但是这篇DSD(Dense-Sparse-Dense)却是关注如何通过改进训练过程提高传统模型的准确率。个人觉得这是一篇挺有意思的文章,值得一看。

DSD是一种新的训练模型的方式,可以提高预训练模型的准确率。DSD和dropout不一样,虽然都是在训练过程中有prune(剪枝)操作,但是DSD是有一定依据来选择去掉哪些connection,而dropout是随机去掉。另外DSD也不是模型压缩算法,DSD算法训练模型目的是提高准确率,而不是模型压缩。

那么DSD的效果怎么样呢?On ImageNet, DSD improved the Top1 accuracy of GoogLeNet by 1.1%, VGG-16 by 4.3%, ResNet-18 by 1.2% and ResNet-50 by 1.1%, respectively.

DSD算法的训练过程主要分3步,大致过程可以看这段话:In the first D (Dense) step, we train a dense network to learn connection weights and importance. In the S (Sparse) step, we regularize the network by pruning the unimportant connections with small weights and retraining the network given the sparsity constraint. In the final D (re-Dense) step, we increase the model capacity by removing the sparsity constraint, re-initialize the pruned parameters from zero and retrain the whole dense network. 这基本概括了本文的方法,可以参看Figure1。

这里写图片描述

想要更详细地了解这三步是怎么做的,可以看下面的Algorithm1。第一步是Initial Dense Training,这一步和正常的网络训练一样,只不过多计算了哪些connection是更重要的连接,而计算的依据就是权重的绝对值(后面会介绍原因)。第二步是Sparse Training,先将前面一步计算得到的不重要的connection去掉,然后再训练这个sparse network。这一步只有一个参数:sparsity,表示要去掉多少比例的connection,根据这个sparsity以及总的connection数量可以计算出阈值|Wi|,这样就可以进行prune了,而且网络每一层的sparsity都是一样的。作者通过实验得出当sparsity在25%到50%范围内的效果比较好。第三步是Final Dense Training,先将第二步prune的connection重新连接并初始化为0,然后再继续训练整个网络得到最后的结果,这一步的学习率采用第二步的1/10。

这里写图片描述

接下来两个式子是用来解释为什么用权重的绝对值来衡量该connection该不该去掉,也就是prune的依据。式子1是模型的loss function,那么我们希望网络稀疏后损失的增加要尽可能小,就是式子2要尽可能小,因为式子2中的第一项约等于0,第二项的二次求导计算比较复杂,Wi又有个平方计算,因此采用|Wi|作为prune的依据。

这里写图片描述

Figure2是DSD算法训练模型时候权重值的分布变化情况。首先(a)是第一步训练完后的权重分布,可以看到大部分值等于0或接近0;在进行prune后的(b),等于0或接近0的那部分都去掉了,这是因为DSD采用的prune的依据是权重的绝对值小的connection需要去掉。(c)表示prune之后对sparsity网络进行训练,得到的权重分布比(b)要平滑。(d)表示进行第三步的Dense Training时先将之前prune的权重用0初始化。(e)表示最后一步Dense Training。

这里写图片描述

实验结果:
作者将DSD算法应用在CNN,RNN和LSTMs等类型的网络,数据集包括图像分类,speech recognition和caption generation等,发现效果都比原来的要好。

Table1是采用DSD算法在各个数据集上训练模型的Top-1 error对比。baseline就是原来模型的效果。

这里写图片描述

Table4是用DSD训练ResNet网络的结果。Sparse表示只进行DSD算法的前面两步,也就是最后得到的是个稀疏的模型(类似常见的模型压缩方法中的prune),sparse的效果也还不错。

这里写图片描述

其他更多实验结果可以看论文。

另外discussion部分很有意思。
escape saddle point。作者认为DSD算法效果较好的一个可能原因是escape saddle point,也就是在训练过程中跳过了鞍点。如果你了解优化算法,应该知道在优化过程中鞍点和局部最优点是容易影响模型的表现,这些点的梯度接近于0,模型接近收敛。而通过在训练过程中的prune操作得到sparse network并继续训练,有可能跳过这样的点,从而再Dense Training的时候可以收敛到更好的结果。作者也提到这有点simulated annealing(模拟退火)的味道,也就是在优化过程中跳过了一些局部最优值。
robust re-initializaiton。确实现在网络初始化一般就做一次,而DSD却在训练网络的过程中初始化了两次,挺有新意的做法。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014380165/article/d

猜你喜欢

转载自blog.csdn.net/App_12062011/article/details/80563742