我们真的需要模型压缩吗

本文是译文，略有修改，原文链接

模型压缩是一种可以减小神经网络计算开销的技术，被压缩的模型在使用少量计算资源的同时，其性能通常与原始模型相似。在实际应用中，其应用瓶颈在于训练原始的大型神经网络

为什么要进行模型压缩？

神经网络往往是过参数化的，存在很多参数冗余，不利于移动端部署

大算力的计算平台往往非常贵，模型压缩可以直接节省硬件成本

适当参数化的模型（Appropriately-Parameterized Models）

适当参数化模型指的是，模型参数既没有过参数化也没有欠参数化，而是参数量恰到好处，可以表示为任务的理想解决方案

在深度学习模型的训练过程中，不能直接训练出适当参数化的模型，因为对于给定数据集而言，是无法知道其参数量具体是多少才是合适的，即使知道了适当参数的解决方案，使用梯度下降法训练合适参数化的模型仍然非常困难

我们通常的套路如下图所示

在这里插入图片描述

1、训练一个过参数化的模型

2、使用正则化技术，抑制训练过程中的过拟合

3、模型压缩通过消除冗余，在大模型中提取出“简单”模型，使内存和时间效率更加接近理想的适当参数化模型

极端的过参数化设计，可以使训练过程变得非常简单，但是极端的过参数化模型训练过程中，模型可以直接“记住”数据本身而不是数据中的有用信息，这也就是我们常说的训练过拟合。模型压缩就可以只保留实际解决方案中所需要的有用参数

我们还有一个目标是使用更少的GPU资源训练神经网络，所以一下几个问题也得解决

为什么过参数化是必须的？
过参数化的“过”程度如何把握？
可以使用更加智能的优化方法去降低过参数化吗？

过参数化的界限

为什么过参数化是必须的？

Gradient Descent Finds Global Minima of Deep Neural Networks和[Global Optimality in Neural Network Training](In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 7331–39)这两篇文章指出，大模型能够使得损失函数更加地接近于凸函数，有利于进行优化求解。过度参数化设计减少了优化计算复杂度但是增加了内存消耗

尽管我们可以使用足够数量的参数来完美拟合某些数据，但我们仍然不知道要完美拟合数据所需的最小参数数量，过参数化的严格界限可能取决于优化过程的方法（例如SGD），计算这个过参数量的界限可能比训练所有可能的候选网络更加棘手。

更好的优化方法

从经验上讲，适当参数量的模型一般很难训练。使用梯度下降法训练一个参数量适当的模型，收敛情况将会非常不乐观，模型很难拟合训练数据。这部分的数学解释可以参考神经网络的优化环境的非凸性部分

模型压缩技术给了我们一个启示，通过阐述过参数量模型的趋向性类型，来指导训练合适参数量模型的训练。下面是一些模型压缩的类型