量化神经网络

转自：https://zhuanlan.zhihu.com/p/25323688

这里的量化不是指“量化交易（Quantitative trade）”，而是 Quantization ，即离散化，注意是否走错片场。

前言

开发神经网络时最大的挑战是让它真正起作用，训练时一般希望速度越快越好，准确率越高越好。使用浮点算法是保持结果精确最简单的方式，GPU 拥有加速浮点算法的库，所以很自然地，不需要过多关注其他数值格式。

最近，有很多神经网络模型投入实际应用。训练计算需求随研究者数目线性增长，但预测所需的周期与用户数目成正比。这意味着纯预测的效率成为迫在眉睫的问题。

这就是量化神经网络的用武之地。该方法包括很多不同技巧，以相对 32 位浮点更紧凑的方式对数值进行存储和计算。

本文关注 8 bit 量化，后续文章还会再讲。

量化神经网络的可行性

训练神经网络时，对权值做很多微小的改动，这些微小增量一般需要浮点精度才能正常工作（也有一些研究工作使用量化网络进行训练）。

使用预训练的模型运行预测则不同。深度网络的奇妙特性是对输入噪声容忍度很高。如果你考虑识别照片中物体，网络能忽略所有 CCD 噪声，光照变化和其他不重要的差异，而把注意力放在更重要的相似性。

该功能意味着网络可以把低精度计算作为另一种噪声源，在容纳更少信息的数值格式下仍然能产生准确的预测结果。

量化神经网络的必要性

神经网络模型可能占据大量磁盘空间，例如原始的 AlexNet （浮点格式）需要超过 200 MB。

由于一个模型中常常有数百万连接，几乎所有空间都被神经元连接的权值所占据。况且这些权值都是有些微不同的浮点数，简单的压缩格式（如 zip）不能很好地压缩。它们分布在大量层中，每层权值都趋向于某个确定区间的正态分布，例如(-3.0, 6.0)。

量化网络最初的动机是减小模型文件尺寸（用 8-bit 量化可以缩小到原来 25%），在模型载入后仍然转换回浮点数，这样你已有的浮点计算代码无需改动即可正常运行。

具体方法是在网络权值保存为文件时，将每层最小值、最大值存储下来，然后将每个浮点数值采用 8-bit 整数表示（在最大值、最小值范围内空间线性划分 256 段，每段用一个唯一的 8-bit 整数表示在该段内的实数值）。

例如，在 (-3.0, 6.0) 区间内，字节 0 表示 -3.0，字节 255 表示 6.0，以此类推，字节 128 表示 1.5。

另一个量化的动机是降低预测过程的计算资源需求，这时需要将完整计算都采用 8-bit 实现。该方案实施也更加困难，因为需要修改所有计算代码，同时也有更大的潜在回报。读取 8-bit 数值只需要相对浮点数值 25% 内存带宽，你可以更好利用 caches，避免访存瓶颈。你也可以使用 SIMD 指令，在一个时钟周期内实现更多计算。一些情况下你还可以用 DSP 芯片加速 8-bit 计算。

将计算移植到 8-bit 可以帮助你更快地运行模型，功耗更低（在移动设备上尤其重要）。它也打开了一扇通向大量不能高效运行浮点计算代码的嵌入式系统的大门，让物联网世界大量应用成为可能。

为什么不直接用低精度训练？

有一些实验使用低位宽进行训练，但结果显示需要使用高于 8-bit 来处理反向传播梯度值。这使得实现训练异常复杂，从纯预测开始是合理的。我们也有很多训练好的浮点模型，用得多了自然十分了解，将它们直接转换格式是非常方便的。

如何量化你的模型

TensorFlow 在产品级别内在支持 8-bit 计算。它也有一个将用浮点训练好的模型转换为等效的利用量化算法进行预测的图。

例如，你可以将最新 GoogLeNet 模型转换为 8-bit 计算：

$ curl http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz -o /tmp/inceptionv3.tgz

$ tar xzf /tmp/inceptionv3.tgz -C /tmp/

$ cd ~/tensorflow-1.0.0-rc1/

$ bazel build tensorflow/tools/quantization:quantize_graph

$ bazel-bin/tensorflow/tools/quantization/quantize_graph \

--input=/tmp/classify_image_graph_def.pb \