ザビエル初期化原則にフィードフォワードネットワークの元の深さ

序文

基本的な知識を説明する上で、この焦点に基づいて、我々は前に深さを組み合わせたBPニューラルネットワークのプロセスについて話すだろう、ニューラルネットワークが完成される小さな夜に導入されている(一般化モデルは、などの機能を活性化させる、前方および逆拡散にその本質を計算する)、および原則モデルパラメータザビエルフィードフォワードネットワークの初期化方法について。

前方に

プロセスは、下層側に接続された各レイヤで、非常に簡単になる前に(すなわち、パラメータ)をマトリックス(すなわち、線形マッピング)、アレイ(すなわち、非線形マッピング)を構成する神経の活性化機能素子の各層、信号を構成しますすでにある入力層から始まるこれら二つの層の出力まで反復プロセス繰り返す「活性化関数ニューラルネットワーク」詳細マッピング処理を交互に線形および非線形述べています。

V2-ce9f66e6afbb4cc7faeb5cb583f3f95c_b.png

リバース

バックプロパゲーションプロセスも非常に簡単ですが、その本質がベースとチェーン導出+勾配降下は、理由があり「BPアルゴリズムの本質を」 BPアルゴリズムのプロセスを説明しますここでは、フォーカスを説明しています。

ダブルまでまず、彼は前より線形のフィードフォワードネットワークよりも何も覚えていないし、非線形マッピングが繰り返し言いました。その後:

まず、出力Aを得るために、活性化関数f1(・)を介して、ニューロンへの入力は、Zであると仮定します。すなわち、関数A = F1(z)の値。入力Zが存在する場合の単語の別の関数f2の出力である(f2は線形マッピング関数であるもちろん、それは、二重み行列に接続するための権利である)、すなわち、Z = F 2(X)、次いでに基づく場合Z導出時に変数x、以来

v2-8266a66c11cfc27097e8447338d47cff_b.png

明らかに(ここでは「裏」は、ニューラルネットワークの出力の方向を指し)、唯一の目の前で何かに焦点を当てる必要があります活性化関数f1の誘導体を出力しない心配し、より多くの事の活性化関数の背後に乗じた場合それだけ前にこれらの変数や関数ZおよびZに焦点を当てる必要があること。したがって、場合にのみ、それは誘導体Zに指していても、この層を横切る非線形マッピング関数による非線形マッピング層の出力に誤差逆伝搬、。

そして、F2(・)は、すなわち、線形写像関数であるのでF_2(X)= W \ CDOT Xそう、

V2-a0197d2fb27d22f5b484e373e0e31b25_b.png

このように、出力層にエラーバックプロパゲーションは、あなたが層を横切ったい場合は、あなただけは線形写像関数のパラメータを乗算する必要があり、線形写像であるとき - つまり、それはWで乗算することができます。

X、出力が非線形マッピングさらに、前の層であると、バックプロパゲーションネットワークの深さ前送りの誤差ので、何も非反復によって乗算され、線形および非線形層の層にわたって繰り返されます誘導体線形関数(すなわち、活性化関数の誘導体)と線形関数の導関数(パラメータ/ニューラルネットワークの重み、すなわち重量/接続側)。

この図は、(参照するには右から左へ)、それを下回っています。


V2-d25b371675d618385e981334a46bb9c3_b.png


(オートメーションの科学研究所中国科学院からの映像が教師趙6月コースウェア)

ザビエル

順方向および逆方向の最後に、次のことがより実用的なエンジニアリングのトリックです。トリック、友人の最初に考えたの初期化パラメータを持ち上げます。0を完成モデルのない脳の初期化パラメータが存在しない場合、それは猫を下に訓練するために永遠にも無駄です。

そして、なぜ0に初期化して完成ではないでしょうか?この必要性はすべてゼロ各ニューロンの入力と出力は、任意の違いを持っていないとき、つまり、前面のBPアルゴリズムに従って、これは単にエラーにつながる、あなたを教えていないが、前方1から渡すことはできませんフル乗じました( 0)は、エラーの後に消えたwが、このモデルはもちろん、意味がありません。

我々は、初期化パラメータ0を満たしていないので、我々は何をすべきかを初期化しますか?まだ安定して高速コンバージェンスモデル、それを可能にしながら、言い換えれば、どのように我々は、入力と出力の多様性を確保するためにしていますか?

、「違い」を記述するために、最初にすべてのあなたは、確率と統計の考えることができるの分散基本的な統計情報を表示します。入力ランダム変数zの各ニューロンに対する、線形マッピング関数により得られるBP、前面に話すときの式に従って、

すなわちZ = \和\ limits_ {iは1 =} ^ nw_ix_i、ここで、n層のニューロンの数です。したがって、分散の2つのランダム変数の積の拡大における確率と統計によると:

V2-d7760569461f444fca316b098c94901f_b.png

:E(XI)= E(WI)= 0は(満たすためにバッチ正規バッチ正規化によって、他のケースのほとんどは持っていないか、ママ)、その後、存在する場合、取得することができます

VAR(Z)= \和\ limits_ {I = 1} ^ NVAR(XI)VAR(WI)

:確率変数Xiとwiは長く、その後、独立した同一分布を満たしている場合

VAR(Z)= \和\制限{I = 1} ^ NVAR(XI)VAR(WI)= NVAR(W)○(X)

さて、今回ここでの焦点。想像して、記事「活性化機能」によると、全体の大規模なフィードフォワードニューラルネットワークは、超大型マップ以外の何ものでもありません、元のサンプルの安定は、そのカテゴリにマッピングされました。つまり、サンプル空間は、カタログ空間にマッピングされています。、その後、無視できる程度の後に得られた誤差逆伝搬カテゴリ空間のサンプルスペースを投げ、そのようなクラスのスペースとしてのサンプルスペースとスペースのカテゴリの分布のちょうどになる非常に大きな違いは、特に密集している場合、サンプルスペースは、特にスパース広がりで、想像してみてであること、トレーニングモデルは非常に遅いにつながります。疎な特殊なカテゴリ空間が、試料空間は、特に緻密であれば、同様に、その後、サンプル空間投げ誤差の範疇に空間をカウントは、単に爆発状存在、その収束にできない発散衝撃モデル、原因。したがって、我々は、あまりにも多くのサンプルスペースとスペースのカテゴリ(密度差)ではないの分布の違いを作る彼らの分散が可能と等しくするために、です

したがって、ヴァー(Z)= Varの(x)は、これだけnは*ヴァー(W)= 1、すなわち、ヴァー(W)= 1 / Nを得るためです。

同様に、順方向伝送したがって前後から計算され、VAR(W)= 1 /(N_ {で})バックプロパゲーションがそのように、背面から計算される場合、VAR(W)= 1 /(N_ {アウト})しかし、N_ {}内そしてN_ {アウト}多くの場合、ああ、どのようにそれを行うには、等しくありませんか?だから我々は、すなわちJiuhaola〜を意味するためにそれらを取りました:

メイク VAR(W)= \ FRAC {2} {でN_ {} + N_ {うち}}

均一間隔[B]に分布Wの分散である場合、Wは、次に、均一に分布されているものとします

v2-4dd80d7788308caf0f2c0deeeb5b4fb4_b.png

得るためにコードVarの式の溶液(w)はパラメータaとbを得るために、すなわち、先行。

W \シムU [ -  {6 SQRT \} \ FRAC {\ SQRT {N_ {+ N_ {うち}}}で}、\ FRAC {\ sqrt6} {\ SQRT {でN_ {} + N_ {うち}}} ]

(この間隔千万年に均質なサンプルwをしてみましょう)

この結論は導き出されザビエルの初期化方法フィードフォワードネットワークの利用が大幅に増加して、ネットワーク設計の前提は、多くの場合、そうでない場合はザビエルを使用しない場合を除き、明らかにザビエルを満たしていない-ザビエルはこのトリックは、多くの場合、訓練速度と分類パフォーマンスモデルは友人を作ったことができます初期化する理由ですそれエラーが発生しました。完全に、たくさんの時間ので、仮定ザビエルする分子を変更するように変更する、あるいはn_out削除応えすることはもちろん、他の一方で、いくつかの場合がある可能性が予期しない結果をもたらすとされています。

参考文献:Glorot X、深い階層型ニューラルネットワーク[J]を訓練することの難しさを理解Bengio Y.。機械学習研究のジャーナル、2010、9:249-256。

この記事はから再生[八尾売り孟Xiの小さな家 ]、彼は誰もがここで停止しないように機械学習を学びたいと述べました-

公開された33元の記事 ウォンの賞賛0 ビュー3292

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/104553455