これは、インターネットを検索するために少しをしたかどうかを確認し、その結果は不満足なもので、最終的にラテックスの抜粋は以下のように仕上げ、非常に非常に詳細な証明プロセスを見つけてください。
(オリジナル:https://blog.csdn.net/weixin_41718085/article/details/79381863)
\ Articleこの記事は、DocumentClass {}でした \ {xeCJKのUSEPACKAGE} \ {amsmath USEPACKAGE} \ {setCJKmainfont能登セリフのSCのCJK} \タイトル{人工ニューラルネットワークのバックプロパゲーションアルゴリズムは、人工知能で\\連鎖ルール適用される} \} {開始ドキュメント \ maketitle \ sectionTop {背景} \サブセクション{}人工ニューラル 人工ニューロンが計算され、それは再入力をそれぞれの数学的操作を得るための非線形動作の出力およびシフト回異なる組み合わせの重みを追加しますある言語で記述された [\ X ^ {(1 + J)} =シグマ\(B + \ sum_i W_i X_I ^ {(J)}) \] \(Jは\)ニューロンの層の数を指し、これは、本例\(X_I ^ {(J) } \) (J \)第\由来する \の(私は\)ニューロン入力レイヤ、\(W_iは\) すべてのニューロンへの入力を提供する現在のニューロンであります重み付け番目のセクション\(Iは\)\(B \)は オフセット値、\(F \)がされ 、いくつかの古典的な活性化関数はシグモイドを有し、典型的には非線形関数、活性化関数と呼ばれ 、RELUそして正接関数アーク。 \サブセクション{人工ニューラルネットワーク} 人工ニューラルネットワーク(人工ニューラルネットワークは、略します ここで考慮モデルにおけるニューロンのいくつかの層のANNに)、入力層のニューロンを受けるニューロンの各層、計算、および次の層に出力します。実際には、ネットワーク全体のパラメータ場合、各ニューロンは、マトリックスと呼ばれ \(\)、全体のニューラルネットワークは、関数\(F(A、x)を考えることができる \)、 \(X \)は 、ネットワーク全体の出力です。 アプリケーションプロセスでは、私たちはしばしば、入力\(X \)と、対応する所望の出力を設定している \(Yを\)。ニューラルネットワークを訓練するプロセスは、そのように、右\(A_0 \)を見つけることである \(F(A_0は、X) Yを\ =)。この問題を解決するために、我々は数学的な損失関数\を導入(J(Y、Y ^ *)は\) \訓練の度合いを示すために、(F(A、x)を\ )、 \(y ^ * \)はどこ ニューラルネットワークであります出力。典型的な損失は、ユークリッド距離の二乗、すなわち、の関数である (J_0(Y Y ^ \ *)=(Y - Y ^ *)^ T(Y - Y ^ *)\)。したがって、それは見つけるために、問題に変換され、 \(A_0 \)\(J(Y、F(よう A_0は、X))\) を最小限に取り出すことができます。 所与の訓練データ\(Y \)は一定値であるので、直感的にするために、覚えているかもしれない \を(J(Y、F( 、A、X))はH(A、X)を\ =) 我々は解決する必要があるように問題は、 関数\(H(x)があるようなパラメータ\(\)を見つける \) を最小限に採取することができます。 これはしばしば、我々の計算の研究で対処する問題のクラスにのみ必要である \({\部分H(A 、X)} / {\部分A} \) を0にし、許容 ことができます。しかし、実際には、\に(時間\) ほぼ導出関数をそう、我々は、各反復方法を使用する\(H \)を取得する 点\(A_0 \)で で微分値、及び負て適宜微分値の絶対値に応じて調整\(\) し、次の反復に入ります。この方法は、勾配降下と呼ばれ、彼は重大な欠点は、彼が唯一の(明らかである)局所的最小値を得ることができるということですしているが、局所的最小値の通常のニューラルネットワークを考慮すると、十分に良いされている、我々はかろうじてできますこの欠点の存在を受け入れます。しかし、思考の勾配降下法を用いて、我々は逆伝搬アルゴリズムを得ることができる必要がある(アルゴリズム、バック微分値は、本明細書に説明される 伝搬アルゴリズム、多くの場合、BPアルゴリズムをいう)の一例です。 \セクションは{}派生 \サブセクションを{}シンボルが定義されているように 、再定義された導出、記号の説明の便宜のために、次の導出シンボルは、使用の文脈で使用されることはありません。 符号規約: 開始{箇条書き} \ \項目セクション\(L - 1 \)第\(Lの\)に伝播\の(J \)レイヤ\(K \)ニューロンは、ニューロンの値を層重みは(W_ {JK} ^ {\と呼ばれる \(L)})、 各層重量の所有権は、(W ^ {(L)行列\と呼ばれる 、\}) \(Wであるように、すべてのパラメータが総称します\); (p個の\(J Lが\)は\層)ニューロンはオフセット値\(b_j ^ {(L)と呼ぶ } \項目\ \の)、各オフセットベクトル全てと称される\(B ^ {(L) } \)、 一般的に\(B \)と呼ばれる、すべてのオフセット、 入力値と呼ばれるニューロンの\セクション\(J \)\の項目(Lの\)層\(z_j ^ {(L) } \)、 すべての入力(\ Z ^ {(L)})は、ベクトル\として記録されている各値; \項目セクション\(Lの\)層\(J \)番目\(X - jが^ {(L)と呼ばれるニューロン出力値 } \)、 全てのベクトルの各出力値は(X ^ {(L)\と呼ぶ \})。 \ \(Lの\)活性化機能層は\(\ sigma_lの\)と呼ばれるの項目(一般に、各ニューロンは、同じ活性化機能を有している) \(S_L \と呼ばれる\項目セクション\(Lの\)層ニューロン数); -総ニューラルネットワーク\(N- \)層; (J(W、B \項目損失関数は、\と呼ばれる Y、Y_0)\)、 一回の反復、\(中(; \(Y_0が\)真の値、\(Y \)は、ネットワークの出力値を参照し、 Y \)と\(Y_0 \)定数であり、これらの2つのパラメータは、後で省略) \アイテム\({\部分J(Wは、B)} / {\部分z_j ^ {(L)}} \) \(\ Delta_j ^ {(Lと称する )} \)、 全ての\(デルタ\の\)の層(\ {デルタ(L)の^} \)\と呼ばれる; \項目のトレーニングセット\(T = \ {(X_0、Y_0)、( X_1、Y_1)、...、(x_m、y_m)\} \)、 および\(| T | = M \); \項目が(行列またはベクトルの\の間に印加されます* \)ビット乗算演算を指します。 \端{箇条書き} 明らかに、定義: $$ z_j ^ {(1 + 1)} = \ \(左sum_ {K = 0} ^ {S _ {(L-1)}。} W_ {JK} ^ { (L)X_K} ^ {(L - 1)} \右)+ b_j ^ {(L)} \ eqno(A) $$ $$ X - jが^ {(L)} = \ sigma_l(z_j ^ {(L) })\ eqno(B) $$ \サブセクション{}オブジェクトが証明 アルゴリズムは、任意の所与のニューラルネットワーク\を計算する(\部分J / \部分 W_ {JK} ^ {(L)} \) と\(\部分J / \部分 B_ {J} ^ {(L)} \)。限られたスペースのために、この記事は前者のみで演算を示し、後者のプロセスは、一貫した証拠一部を証明省略されています。 &= \ sum_ {I = 1} ^ {S_ {1 + 2}} {\部分J \ \部分z_i ^ {オーバー(L + 2)}} {\部分z_i ^ {(L + 2)} \ \部分X - jがオーバー^ {( L + 1)}} \\ \サブセクション{プルーフ} 連鎖ルールで知ら: $$ {\部分J(Wは、Bである)\ \部分JK W_オーバー} {^ {(L)} = {\部分J(Wは、B)\上\部分X - jが^ {(L + 1)}} {\部分X - jが^ {(L + 1)} \ \上部分z_j ^ {(L + 1)}} {\部分z_j ^ {(L + 1)} \オーバー\部分JK W_} {^ {(L)}} \ eqno(0) $$ 偏差は、3つの部分、解決以下の三つの部分のそれぞれに分割しました。 \段落{2.3.1。}第1の部分が の最初の部分持つ $$を 整列\開始{} {\部分J \ \部分X - jがオーバー^ {(1 + L)}(Wは、Bである)} $$ &\オーバー{(A)} = \ sum_ {i = 1} ^ {S_ {1 + 2}} {\部分J \ \部分z_i上^ {(L + 2)}} {\ \部分上部分\ X - jが^ {(L + 1)の左側}} \(b_j ^ {(L + 1)} + \ sum_ {k = 0} ^ {S_ {L + 1}} {W_ {JI} ^ {(L + 1 )} {X_I ^(1 + L)}} \右)\\ &= \ sum_。1 {I} = S_ ^ {2} + {Lの\のdelta_i ^ {(L + 2)} W_} {^ JI {(L)} \整列終了{} \ eqno(2) \ {パラグラフ2.3.2。}第2の部分が ための第二の部分持っている \ [ \整列{開始}を \ {^部分X - jが(1 + L)} \ \部分z_j ^ {(1 + 1)}オーバー &\オーバー{(B)} = {\ \部分z_j ^ {上部分\(L用+ 1)}} \ sigma_ {L + 1}(z_j ^ {( 1 + L)})\\ &= \ sigma_。1} + {L「(z_j ^ {(1 + L)}) 整列エンド\ {} \] 活性化関数(\ \ sigma_lの\)のために、存在する場合関数\(F_L \)よう \ [ F_L(\ sigma_l(X))= \ sigma_l「(X) \] が [\ \ {}開始整列 {\部分X - jが^ {(1 + 1)} \ \部分z_j ^ {オーバー(1 + 1)} = F ^ {(1 + 1)}(X - jが^ {(1 + 1)} \終了{整列} \ {2}タグ \] 2.3.3。パートIII \段落{} \ [ \ [ \} {開始位置合わせ \ {部分z_j ^ {(L +を1)} \ \部分W_上 {JK} ^ {(L)}} &\オーバー{(A)} = {\ \部分W_ {JK} ^ {(L)}上部分\} \左(b_j ^ {(L)} + \ sum_ {k = 0} ^ {N_ {L -1}} W_ {JK} ^ {(L)} X_K ^ {(1 - 1)} \右)\\ &= X - jが^ {(L)} \端{整列} \タグ{3} \] \段落{2.3.4。综合} 综合\((0)\)\((1)\)\((2)\)\((3)\)式可得 \ [ \開始{整列} \左(\ sum_ { I = 1} ^ {S_ {1 + 2}} \ Delta_i ^ {(L + 2)} W_ {JI} ^ {(L)} \右)は、f ^ {(L + 1)}(X - jが^ {( L + 1)})X - jが^ {(L)} \端{整列} \タグ{4} \] 又因为 \ Delta_j ^ {(L + 1)} = \ FRAC {\部分J(W、B)} {\部分z_j ^ {(L + 1)} = {\部分J(W、B)\ \部分X - jがオーバー^ {(L + 1)}} {\部分X - jが^ {(L + 1)} \ \部分z_j上^ {(L + 1)}} \オーバー{(1)、(2)} {=} \左(\ sum_ {i = 1} ^ {S_ {1 + 2}} \ Delta_i ^ { L + 2} W_ {JI} ^ {(L)} \右)は、f ^ {(L + 1)}(X - jが^ {(L + 1)})\タグ{5} \] 前記\(0 <J <S_ {L}。1 + \)、\(0 <L <N - \)。 \ {パラグラフ2.3.5。}ベクトル形式で書き直さ とベクトル形式で記述された \ [ \ FRAC {\部分J( Wは、Bである)} {\部分Wである^ {(L)} = \デルタ^ {(1 + 1)} \左(X ^ {(Lの)} \右)^ T \タグ{4 *} \] \ [ \デルタ^ {(L)} = \左(Wある^ {(L)} \右)^デルタT \ ^ {(1 + 1)} * F_L(X ^ {(1 + 1)})\ {*}。5タグ \] \ {パラグラフ2.3.6。}境界条件 本明細書で我々は2つの再帰式を得ました。以降明らかに、\((5 ^ *)\)を入力するために、 \(L = N \)は、(L + 1 \)\場合 境界を、この場合には適用できません。これは、追加の境界条件を考慮すべきです。 \ [ \整列開始{} \ Delta_j ^ {(N)} &= \ FRAC {\部分J(Wは、Bであり; Y、Y_0)} {\部分z_j ^ {(N)}} \\ &\オーバー{Y = X ^ {(N)} = \ FRAC {\部分J(W、B、X ^ {(N)}、Y_0)} {\部分X_I ^ {(N)}} \ FRAC {\部分X_I ^ { (N)}} {\部分 z_i ^ {(N)}} \\ &\オーバー{(2)} = \ FRAC {\部分J(Wは、Bであり; X ^ {(N)}、Y_0)} {\部分X_I ^ { (N)}} ^ {F(N)}(X - jが^ {(N)}) 整列終了{} \タグ\ 6} { \] に関連する損失関数を計算した後、詳細な形態は、一般的に与えることができませんしかし、考慮に入れて、次の操作は、明らかに無害ここでは省略されています。 \セクション{}結論 境界条件二つ再帰式を介し: \ [ \ケース} {始める \ Delta_j ^ {(N)} = \ {FRAC部分X_I \ \部分{J} ^ {(N)}} (Wは、Bであり; X ^ {(N)}、Y_0)F ^ {(N)}(X - jが^ {(N)})\\ \ FRAC {\部分{J} \ {^ Wが部分的である(L)} }デルタ(1 + L)} \左(X ^ {(L)} \右)\\ ^ Tの= \ {^(Wは、Bである) 、デルタ(L)の\ {^} = \左({^ Wが(ありますL)} \右)^デルタT \ ^ {(1 + 1)} * F_L(X ^ {(1 + 1)}) \終了{ケース} \ eqno(結論) \] 伝播ニューラルを完了するために導出プロセスネットワーク。 \端{文書}