神经网络量化实践

2018月到2019年底这段智能辅助驾驶的创业，不论结果如何还是要对自己曾经钻研过的知识加以整理总结，敬畏知识，积极分享，才能在学习的路上保持年轻！

　　这里首先要特别感谢几位朋友：

mogo智行 FPGA专家：黄自瑞，google tflite 工程师：刘仁杰，小米MACE 架构师何亮亮

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　本次主要分享，我们在神经网络模型部署上的其中一次探索，“tensorflow quantization-aware”

　　参考资源如下：

　　“Quantizing deep convolutional networks for efficient inference: A whitepaper”　　

　　”Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference“

　　”https://github.com/google/gemmlowp“

”https://spatial-lang.org/gemm“

“https://github.com/tensorflow/tensorflow/tree/master/tensorflow/lite”

1 现状：

　　智能移动设备的日益普及以及基于深度学习的模型令人生畏的计算成本要求建立有效而准确的设备上推理方案。我们提出了一种量化方案，该方案允许使用integer-only 算法进行推理，该算法比在通常可用的仅整数硬件上的浮点推理更有效地实现。我们还共同设计了一种训练程序，以保持量化后的端到端模型准确性。结果，所提出的量化方案improves the tradeoff between accuracy and on-device latency 。即使在以运行时效率闻名的模型系列MobileNets上，这些改进也非常重要，并且在ImageNet分类和流行CPU的COCO检测中得到了证明。

　　当前最先进的卷积神经网络（CNN）不太适合在移动设备上使用。自AlexNet 问世以来，主要根据分类/检测准确性对现代CNN进行了评估。因此，网络架构的发展没有重新评估模型的复杂性和计算效率。另一方面，要在移动平台（例如智能手机，AR / VR设备（HoloLens，Daydream）和无人机）上成功部署CNN，则需要较小的模型尺寸来适应有限的设备内存，以及用户交互的低延迟。这导致了一个新兴的研究领域，该领域专注于以最小的精度损失来减小CNN的模型大小和推理时间。

　　该领域的方法大致可分为两类。第一类以MobileNet ，SqueezeNet ，ShuffleNet 和DenseNet 为例，代表了利用计算/内存有效操作设计的新型网络体系结构。第二类将CNN的权重或激活从32位浮点调整为低位深度表示。这种方法被如下网络所采用，如三元重量网络（TWN ），二进制神经网络（BNN ），XNOR-NET，是我们调查的重点。尽管有很多种方法，但当前的量化方法在两个方面存在不足，无法准确地平衡延迟。

　　其次，许多量化方法无法在实际硬件上提供可验证的效率提升。weight-only的方法是主要关注设备上的存储，较少关注计算效率。值得注意的例外是二元，三元和位移网络。这些方法将权重表示为为0或2的幂，这允许通过位移来实现乘法。然而，尽管移位在传统的硬件中可能是有效的，但它们对现有的硬件的累加指令几乎没有好处，而乘法指令在正确使用（即流水线）后，其成本并不比单独的累加昂贵。此外，只有在操作数较宽的情况下乘法才是昂贵的，并且一旦量化权重和激活量，避免乘法的需求就随着位深度而减小。值得注意的是，这些方法很少提供设备上的测量来验证承诺的耗时改进。更具run-time友好性的一些方法将权重和激活都量化为1位表示，用这些方法，乘法和加法都可以通过有效的bit-shift和bit-count操作来实现，这在自定义GPU内核中得到了展示（BNN）。但是，但是1bit量化会导致性能大幅下降，并且在模型表示上可能过于严格。

在本文中，我们通过改善常见移动硬件上MobileNets的延迟与准确性之间的权衡来解决上述问题。我们的具体贡献是：

　　• 我们提供了一个量化方案，将权重和激活都量化为8位整数，而仅将几个参数（bais 向量）量化为32位整数。

　　• 我们提供一个量化的推理框架，在仅允许整数运算的硬件上如Qualcomm Hexagon ，和我们描述一个有效准确的实现在ARM NEON上。

　　• 我们提供了与量化推论共同设计的量化训练框架，以最大程度地减少对真实模型进行量化带来的准确性损失。

• 我们将我们的框架应用于基于MobileNets的高效分类和检测系统，并在流行的ARM cpu上提供基准测试结果，展示了在最新的MobileNet架构的latency-vsaccuracy tradeoffs 的显著提升，在ImageNet分类任务，和coco的对象检测任务，以及其他任务。

　　我们的工作从Deep learning with limited numerical precision.中获得灵感，它利用低精度定点算法来加速CNN的训练速度，在Deep Learning
and Unsupervised Feature Learning NIPS Workshop 中，它使用8 位定点算法来加快x86 CPU的推理速度。我们的量化方案专注于提高推理速度与CPU设备的精度之间的权衡。

2 量化推理

2.1量化方案

　　在此，我们描述了一种通用的”量化方案“（这里描述的量化方案是TensorFlow Lite[5]中采用的方案，我们将参考其代码的特定部分来说明下面讨论。

我们之前在gemmlowp[18]的文档中描述过这种量化方案。作为本节中开发的一些主题的替代处理，以及作为其自身包含的示例代码），即bit进行数值表示的对应关系（q ，表示“量化值”），数学实数（r ， “实际值”）。我们的量化方案是推理中使用纯整数在训练过程中使用纯浮点数，两种实现都保持了高度的对应性。我们首先给出量化方案的严格数学定义，然后分别采用该方案进行整数-算术推理和浮点训练。

　　我们的量化方案的基本要求是，它允许仅对量化值使用整数算术运算来高效执行所有算子（我们避免使用需要查找表的实现，因为与SIMD硬件上的纯算术相比，它们的执行性能较差）。这等效于要求量化方案是整数q 到实数r 的仿射映射，即形式为：

常数S 和Z 是量化参数。量化方案对每个激活数组和每个权重数组中的所有值使用一组量化参数。单独的数组使用单独的量化参数。对于8位量化，q 被量化为8位整数（对于B 位量化，q 被量化为B 位整数）。一些数组（通常为bais 向量）被量化为32位整数。

常数S （”scale“）是任意正实数。它通常在软件中表示为浮点数，如实际值r 。2.2描述了避免在推理工作负载中表示此类浮点数量的方法。

常数Z （”zero-point“）与量化值q 属于同一类型，并且实际上是与真实的”0“值所对应的量化值q。为了满足实际值的要求 r = 0 可以用一个量化值精确表示。因为有效实施神经网络运营商通常需要在边界周围对阵列进行零填充。

我们的讨论到目前为止总结在下面的量化Buffer数据结构（在TensorFlow lite Converter的实际数据结构是头文件中的QuantizationParams 和Array。我们在下一个小节将会讨论，该数据结构仍然包含浮点数量，不会出现在实际的量化的设备上inference代码中）中，具有这样的的一个实例Buffer现有用于在神经网络的每个激活阵列和权重阵列。我们使用C ++语法，因为它允许类型的明确传达：