量子化量子化

著作権:オリジナルの作品は、転送するために歓迎します!添付のリンクを転送https://blog.csdn.net/qq_26369907/article/details/90035538

一般モデルの圧縮に使用される方法:剪定、分解、蒸留、量子化、軽量ネットワークモデル。定量化するために学習の概要レコード。

背景:現在のニューラルネットワークは、典型的には、浮動小数点形式の店舗の重み、およびネットワーク構造を使用し、モデルと最も簡単な方法の精度を維持するのに有効である、GPUは、計算を加速することが好ましいです。しかし、前者の増加負荷は、派生モデル計算に比例して増加すると、Quentizationが効果的にこの問題を解決することができ、それは計算を格納し、実行するために32ビットのデジタルフォーマットよりもコンパクトです。

実現可能性:低精度計算は雑音の別の供給源である(確認すること??)

役割:モデルの占有スペースを削減します。

量子化方法と計算例(例は8ビットである)
方法:各層の最小値と最大値を格納し、各8ビット整数の浮動小数点値、最大値、線形空間分割の範囲の最小値に圧縮256のセクション、各期間にわたり一意の8ビット整数の実数値で表され、その後、浮動小数点演算に変換し;
例:最大最小レベルパラメータ、:-10,10。256部、0 256がパラ10を示し、セクション-10を表すので、セグメント128は、値0を表す-5。64のように表します。
そしてステージの浮動小数点数の間の関係は、
ここに画像を挿入説明
Xは、浮動小数点数であり、Nは、セグメントの数で
ここに画像を挿入説明
左実際のネットワークパラメータ(浮動小数点)にテーブル、テーブルの右部分は、量子化後の量子化の数です。ストレージ、浮動小数点モデルが実行されると、次の変換式に変換され、元の1/4に減少した:
ここに画像を挿入説明
Xは、浮動小数点数であり、Nはセグメントの数であります

おすすめ

転載: blog.csdn.net/qq_26369907/article/details/90035538