论文阅记【CVPR2020】IR-ネット:正確なバイナリニューラルネットワークの前方と後方の情報の保持

论文题目:正確なバイナリニューラルネットワークの前方と後方の情報の保持

文学住所:https://arxiv.org/abs/1909.10788

送信元アドレス:https://github.com/htqin/IR-Net

効果適用IR-ネット

  著者は、2つのベンチマークデータセットを使用:CIFAR-10とImageNet(ILSVRC12)が実験を行いました。実験結果は、従来の方法よりも、そのデータの二組、IR-Netのより競争力を示しています。

  さらにIR-Netは、実際のモバイルデバイスにデプロイの効率を確認するために、著者らはさらにIR-Netのラズベリーパイ3B 1.2GHzの64ビットクアッドコアARMのCortex-A53で達成し、実際の用途におけるそれらの真の速度について試験しました。

  表から分かるように、IR-Netの推論ははるかに速く、モデルサイズが大幅に減少し、IRネット推論少し余分な時間とストレージのシフト動作が消費されます。

バイナリネットワークの状態とモチベーション

  重みおよび活性化値化がある効果的なニューラルネットワークの深圧縮方法加速推論可能なビット操作を使用して、。そして、実際の使用では、その持つバイナリーニューラルネットワークの小さな収納スペース効率的な推論は、社会で広く懸念されています。けれども、多くの二値化による量子化誤差の伝播を最小フロントする改善モデルの精度は、依然としてモデルとモデルの完全な二値化精度との間には、大幅なパフォーマンスの差が存在します

  バイナリニューラルネットワークの性能低下の主な理由は、それがあるためである限られた容量を表し、および2つの別個の値を、その結果、前方および後方伝播深刻にある情報の損失第1の伝播では、ときに活性化され、重量の量は、2つの値に制限され、モデルの多様性の急激な減少が、ダイバーシティのニューラルネットワーク[54]証明臨界高精度

  ダイバーシティ順方向伝搬の過程があろうことを意味する十分な情報を運ぶ能力を有し、そして、バックプロパゲーションの過程で、正確な勾配を最適化する正確な情報を提供しますしかし、訓練過程でバイナリネットワーク、個別のバイナリは、多くの場合、持参不正確な勾配エラー最適化の方向をそこで、著者らは、バイナリネットワーク信じるの損失定量化するために情報を前方に伝播し、逆の普及の両方失われた原因を。

  ネットワークネットIR(維持するため、提案されている情報の情報保持ネットワーク):

  1. フォワード伝搬と呼ばれるパラメータてんびん座値化(導入リブラ-PBのフォワード伝搬における情報の損失を最小限に抑え、最小化される最大エントロピー量子化パラメータと量子化誤差によるバランス正規化量子化方法を);
  2. バックプロパゲーション(のエラー減衰推定用いEDEの)情報の損失を最小限にするために、トレーニング開始の終了を更新するために適切な訓練を保証するために、より良い近似符号関数を通じて勾配、正確な勾配を算出します。

  以下に示すように、最初の図は、プロセスの重量配分を変更するために前方に概略リブラ-PBを示す図である。第二のウェブは図の使用リブラ-PBおよび訓練プロセス実際EDEに示され、第3ウェブ図EDEプロセスは、情報の損失を最小限に符号関数近似により示さ。

AND-ネット

予備

  。従来の計算

  深ニューラルネットワークは、主な操作は次のように表すことができます。

ここで、wは重みベクトルを表し; Aは、入力ベクトルが活性化される表します。

  B。二値化処理

  即ちQxを(x)は、以下の量の必要w及び入力を二値化、それぞれ重量W 2値化間に入力され、Qwを(w)は、いずれかのQa()のいずれか。各αはスカラー係数です。

  二つの値のネットワークの目標は、1ビットで出力の活性化機能の後に浮動小数点値とそれぞれの層の重量を表すことです。一般的に、定量は次のように表すことができます。

式中、Xは、浮動小数点パラメータは、浮動小数点を含み、W出力重みを活性化する、Bx∈{-1、+ 1}値化重量Bwを含むバイナリを表し、出力のBaを活性化されています。αと呼ばれるαAを活性化する権利を含むバイナリスカラー、スカラー量αWと出力を表します。通常Bxのを取得するための関数に署名:

  C。二値化ネットワークオペレーション

  以下の通りのQW重量(W)と二値化後の入力のQa()の後に二値化した後に得られたときの重みは、バイナリ算術ネットワークの形で計算さ従来の動作に追従することができます。

操作はXNORを含み操作があります。

  使用して定量化する符号関数で、バックプロパゲーション手順はに存在する問題パイロットシンボルの数は0をほぼどこにでも関数であり、これは、バックプロパゲーションに対応していません。離散化前(またはプレ活性化重量)勾配の正確な元の値がゼロとなるからです。したがって、一般に、「推定スルー(STE)[5]」バイナリモデルを訓練するために、モデルによって同一又はHardtanh機能する勾配を伝播します

フォワード伝播するリブラ-PB(リブラパラメータ値化)

  従来の量子化誤差目的関数を最小化します

  前方伝播プロセス、量子化は、情報の損失をもたらします。多くのバイナリ畳み込みニューラルネットワーク量子化器は、量子化誤差は、目的関数を最適化する方法として、最小化されます。

式中、Xは、完全精度パラメータを表し、Qxを(x)は、量子化パラメータを表し; J(Qxを(X))は、量子化損失を表します。

  バイナリモデルのためのパラメータがされている能力を示す二つの値に限定されるものでニューロンが運ぶように、情報を容易に失われますバイナリーニューラルネットワークの解空間と解空間の完全な精度ニューラルネットワークも非常に異なっていますこのように、ネットワークが唯一の良い二値化ネットワークが不十分であることを確認するために、量子化誤差を最小化することにより、情報を保持していない場合は、それが困難です

  保持情報リブラ-PBは、情報の損失を最小限に抑えつつ、バインディング情報の損失量子化の損失は、前の計算は、作られました。

  天秤座-PB目的関数

  乱数b∈{-1、+1}ため、ベルヌーイ分布に従う、bがここで実際に(W)は、量子化しQwとQA()です。以下のように確率分布を表すことができます。

  二値化処理パラメータは、重みと入力自然を初期化する二値化します著者は、大きな情報エントロピーのバイナリ量分布が再バランス、Qxの(X)をしましょう、と言うことですによって得ることができ、より良い、より大きな、より混乱、よりバランスのとれた分布を願っています。

  情報エントロピーを求めるための二値化結果Qxを(X)のために、エントロピーは実際Bxとを(ネットワークは、式二値化処理することにより得ることができる)を取得します。次のようにこのように、表すことができます。

  そして、場合P = 0.5、最大エントロピー。量子化手段の後に値が均等に分散します。

  天秤座-PB目的関数は以下のように定義されています。

  また、より安定して回避重みと、さらにバランスウェイト生成された勾配を訓練させるためにはマイナスの影響を正規化しました。

ここでは、σ(・)が標準偏差です。

  ^ wの重量は二つの特徴があります。

  (1)ゼロ平均、二値化は、最大エントロピー重量を受ける権利。

  関与する二値化量がより分散完全精度重みを行う(2)単位ノルム、。

  図から分かるように、重みが2進の重みに完全精度変換からの重みであり、二値リブラ-PB重量後の重量は、従来の二値より高い情報エントロピー分布を、よりバランスさに比べ。

  次のようにこのように、前方伝搬パラメータ値化のための最終的な、天秤を表すことができます。

  R-Netの主演算は次のように表すことができます。

左表す<< >>右シフト演算。Sは次の式で計算できます。

バックプロパゲーションEDE(エラーディケイ推定)

  値化不連続勾配はほぼ不可避伝播するからです。したがって、影響は情報の膨大な損失を引き起こし、同様のと正確にモデルに定量化することができません。それは次のように近似することができます。

ここで、L損失関数を表す(W)、近似式の符号関数を表す(W)、G。G用(W)は、通常、2つの近似法を有しています。

  1. 同一性:Y = X

  恒等関数は単に入力値に勾配情報、全く無視値化衝撃の出力値を通過します。図の斜線部。3()が示され、勾配誤差が大きく、バックプロパゲーションプロセス中に蓄積されます。確率的勾配降下アルゴリズム、勾配、権利情報を保持回避不安定に訓練ではなく、アイデンティティ機能に起因するノイズを無視することが必要。

  1. クリップ:Y = Hardtanh(X)

  クリップ機能を考慮値化切り捨て、減少勾配エラーの性質を取ります。しかし、それは唯一の勾配情報に切り捨て間隔渡すことができます。図に見ることができる。図3(b)は、パラメータ外部[-1、+ 1]のために、勾配は0に制限されます。区間のうち、カットオフ値と、あなたはそれを更新することができないことをこれが意味。この機能は、大幅に対向伝播を更新する能力がReLUがTANH活性化機能よりも優れていることが証明制限します。したがって、実際の応用では、最適化されたクリップ近似の難しさを増加させる、精度を低下させました。特にトレーニングプロセスの開始時に、十分な重要な更新の可能性を確認してください。

  アイデンティティ機能は、量子化された勾配情報を紛失、および機能は切り捨て間隔よりもクリップ勾配情報が失われています。2つの勾配情報損失の間に矛盾があります。

  バック伝播損失関数によって導出された情報を保存するために、EDEは、勾配法の二段階プログレッシブ近似を導入します。

  第一段階:バックプロパゲーションアルゴリズムを更新する能力を保持します。我々は、導関数の勾配の値が徐々にカットオフ値多数から1まで、1のレベルの近くに維持される推定します。このルールを使用して、我々はこのようにトレーニング早期更新を確保し、機能にアイデンティティクリップ機能から進化した機能に近似しています。

  第二段階:正確な勾配のパラメーターを維持するためには、ゼロの周りにあります。我々は、カットオフ値を維持し、徐々にステップ関数の微分曲線形状に進化します。このルールを使用して、我々は、このように、順方向および逆方向伝送の一貫性を保証する、符号クリップ関数に関数から進化関数を近似します。

  図EDE形状変化様々な段階。3(c)は図。この設計により、EDEの値は近似関数との差を低減すること、及び全てのパラメータは、フォワード2を更新する機能と合理的に得ることができます。

  

おすすめ

転載: www.cnblogs.com/monologuesmw/p/12621335.html
おすすめ