[NLP] QAインタビュー活性化機能と損失関数

長所と短所シグモイド関数は何ですか

利点:

  • 優先出力範囲は、出力が(0、1)の範囲内の任意の範囲にマッピングすることができ、出力層において使用することができるバイナリ分類の出力確率を表します。
  • 派生やす

短所:

  • バックプロパゲーション勾配シグモイド容易飽和関数、および範囲内の勾配(0、0.25]、原因消失しやすいです。

ReLUの長所と短所

利点

  • ReLU非不飽和活性化は、比較的広い境界を提供することができます。
  • 0、1 2つの変数を勾配、効果的勾配の消失の問題を解決するだけ。
  • 片側抑制ReLUスパースネットワークを発現する能力を提供します。

短所

  • トレーニングプロセスは、問題の神経細胞死につながることができます。トレーニングでは、不適切な更新におけるパラメータ場合、ReLU第一中間層の神経素子は、トレーニングデータのすべての上で活性化されるべきではありません。だから、この勾配は常に0であるパラメータ自体ニューロン、トレーニングプロセス後に更新することはできませんでしょう。この現象は、死ReLU問題と呼ばれている(ReLU問題を瀕死)

クロスエントロピーとは何か

  • クロスエントロピーは、2つの確率分布間の距離の肖像である予測及び分布の実際の分布の違いについて説明します
  • クロスエントロピー式:\(H(P、Q)= - \ SUM_X P(X)\ Q(X)をログ\)、xはサンプルの各カテゴリの確率であり、

なぜ損失関数の分類問題は、クロスエントロピーがMSEではないでしょうか?

モデリングの観点から:

  • MSEは、ガウス分布に沿って仮想的データ、負の対数尤度の条件付き確率分布です。これは、2つのベクトル間のユークリッド距離を表し、
  • CEは、モデルは、多項式分布プロフィール、負の対数尤度の条件付き確率分布であると仮定されます。それは真の予測間の差の分布と分布を表し、

ビューグラデーションの視点から:

  • MSE的梯度\(\ FRAC {\部分L} {\部分\ハットY_I} = 2(\ハットY_I - Y_I)\)
  • CE的梯度\(\ FRAC {\部分L} {\部分\ハットY_I} = \ FRAC {Y_I} {\帽子Y_I} \)

MSEは、最適化されたスローダウンし、その結果、非常に小さくなり後期側の残差を最適化するにはゼロになる傾向があります。後者の最適化にCEコンポーネントは、右ではなく最適化速い0における成分定数の正確なタイプよりも、1になる傾向があります。

直感的に:

  • MSEは何の違いは、すべてのカテゴリの確率の実数と予測確率の違いを心配しませんでした。
  • CEの懸念は正しいカテゴリの確率を予測することです。

マルチ分類問題、および最後の層の活性化関数との差としてシグモイドソフトマックスを使用して

  • シグモイド関数の各出力は独立しており、それはサンプル間の相関を反映していません。
  • ソフトマックスは、平均出力が増加し、より確率のルールに沿ったものである他の低減された出力、を添付しなければならない正規化され、それは相互に排他的なサンプルとの間の関係を反映しています。
  • サンプルが複数のサンプルの下にあり、各サンプルは分類から独立している場合は、各出力のシグモイド活性化関数として使用することができる;分類の相互に排他的なカテゴリは、最後のソフトマックス活性化関数として使用されるべきです。

なぜLSTM活性化機能がReluなし双曲線正接シグモイドです

LSTMでは、ドアの役割の関数としてシグモイド関数は、(0、1)の範囲内で、交換することができません

Relu目的はLSTMに、タイミング上の残留機構ので、勾配は問題が大幅に低減された消失が、勾配の消失の問題を解決することです。

一方、TANHは、範囲(-1、1)で出力マップモデルに最適化することが容易に可能です

ソフトマックスバックプロパゲーション

マルチ分類問題のために、出力層の活性化機能ソフトマックス単一層ニューラルネットワーク分類器は、重みパラメータ考慮\(Wが\である)、SGDの最適化方法を用いて、入力サンプル\(X \)標識された、\(Y \)を前記試料寸法\(M \) カテゴリの数である(N \)\、その前方伝搬及び逆方向伝搬方程式:

  • フォワード伝播:

\ [\ {整列}&Z = Wxを\\&P_I =ソフトマックス(Z)= \ FRAC {EXP(z_i)} \\&L(\ハット{= 1} ^ {n}はEXP(z_j)\ sum_ {J}を始めます{Y}、Y)= - \ sum_ {I = 1} ^ ny_i \ログ\ P_I \端{整列} \]

  • バックプロパゲーション:

\ [\ FRAC {\部分L} {\部分P_I} = - \ sum_ {I = 1} ^ N \ FRAC {Y_I} {P_I} \]

\ [\開始{ケース} \ FRAC {\部分P_I} {\部分z_j} = \ FRAC {EXP(z_j)\ sum_ {k = 1} ^ {n}はEXP(z_k) - EXP(z_j)^ 2} {(\ sum_ {k = 1} ^ {n}はEXP(z_k))^ 2} = p_j(1-p_j)と、I = J \\ \ FRAC {\部分P_I} {\部分z_j} = - \ FRAC {EXP(z_j)EXP(z_i)} {(\ sum_ {k = 1} ^ {n}はEXP(z_k))^ 2} = -p_ip_j&、I \ NE J \端{ケース} \]

それから

\ [\ {整列}始める&\ FRAC {\部分L} {\部分z_i} = \ FRAC {\部分P_I} {\部分z_i} \ FRAC {\部分P_I} {\部分z_i} \\&= - \ FRAC {Y_I} {P_I} P_I(1-P_I) - \ sum_ {J \ NE I} \ FRAC {y_j} {p_j}( - p_ip_j)\\&= -y_i + p_iy_i + P_I \ sum_ {J \ NE I} y_j \\&= -y_i + P_I \ sum_ {J = 1} ^ ny_j \\&= P_I - Y_I \端{整列} \]

行列として表される:\(\ FRAC {\部分L} {\部分} = P Z - Y \)

おすすめ

転載: www.cnblogs.com/sandwichnlp/p/12631015.html