神经网络参数量化,模型压缩论文笔记Training with Quantization Noise for Extreme Model Compression


论文地址

结论

本文介绍了一种新的神经网络参数量化的方法,能够极大压缩神经网络对内存的消耗。

本文提到两类量化方法,一类是标量定点化,就是常用的定点方式。通过变量的动态范围来确定变量需要的位数。文中提到了int4和int8。另一类是向量定点化,将一个列向量,分成多个子向量。子向量之间共用一套编解码本,能实现更大的压缩率。本文称为Product Quantization,简称为PQ。本文使用的是iPQ(iterative Product Quantization)。

本文有两种针对参数量化的训练方法,一种是QAT(Quantization Aware Training),一种是QN(Quantization Noise)

本文举例用了两个网络,语言模型Wikitext-103和图片分类器ImageNet-1k。Wikitext-103的性能指标是PPL,ImageNet-1k的性能指标是Top1准确率。分别对原始模型,三种量化方法,int4,int8,PQ量化和两种训练方法的组合。比较了模型压缩率和性能之间的tradeoff。

本文的三个结论

  • 1 Quant-Noise 能提高所有量化方式(int4,int8,PQ)的适应能力
  • 2 Quant-Noise 能使得PQ量化方法称为新的 state-of-art方法,能够在性能和模型大小之间取得绝佳的trade-off。
  • 3 Quant-Noise 训练int8和PQ结合的权重以及激活函数量化方式,能达到一个极致。ImageNet能实现 79.8%的top-1准确率,WikiText-103能实现21.1的PPL。
  • 总之,就是Quant-Noise很厉害,包括既有的量化方式(int4,int8 初级组合),新的量化方式(PQ 高级组合),以及结合的方式(int8+PQ 终极组合)主要的结论来自下面这张图。

在这里插入图片描述

简介

相关工作

模型压缩

神经网络参数量化

标量定点化

向量定点化 Product Quantization

传统PQ

迭代PQ

标量定点化和向量定点化结合

方法

猜你喜欢

转载自blog.csdn.net/s09094031/article/details/105933993