バッチ正規化とレイヤー正規化

バッチ正規化

現在、CV で最も主流の正規化手法は BN であり、BN の機能は勾配の消失と勾配の爆発を解決することです。BN の機能は、パラメータを活性化関数の感度がより高い領域に戻すことです。

正規化は計算プロセス中に確認できます。
1. データの平均を求める
2. データの分散を求める
3. データを標準化する
4. トレーニング パラメーター γ、β
5. 出力 y は線形変換を通じて新しい値を取得します
ここに画像の説明を挿入
サンプルに従ってγ と β を垂直方向に正規化するには、計算された平均と分散を推論用に保存する必要があります。バッチサイズが大きく、サンプル間の分布が比較的集中しているシナリオに適用可能

以下の図のデータの場合、従来の機械学習データと同様に、BN の使用は非常に合理的であり、うまく機能します。緑のボックスはBNの範囲です
ここに画像の説明を挿入

ただし、BN は RNN などの配列データには適していません。

  • 自然言語は比較的柔軟であるため、異なるサンプル内の同じ位置にある単語の分布は大きく異なり、BN が要求する分布集中と矛盾するため、効果は比較的乏しいです。
  • また、自然言語処理の文の長さは一定ではなく、その差は大きくなります。

レイヤーの正規化

NLP では、単語またはフレーズは単語埋め込み行列で表され、この行列の次元を決定できます。LN では、正規化のために各単語埋め込み行列の対応する特徴を扱います。
上記と違いがないように思えますが、NLP のデータ処理では、バッチは複数の文で構成され、文は複数の単語埋め込み行列で構成されます。

要約する

BN: 異なるサンプル、同じ特徴、正規化された
LN: 1 つの文、各単語に埋め込まれた特徴、正規化

おすすめ

転載: blog.csdn.net/CSTGYinZong/article/details/128497644
おすすめ