レビュー
その後の論文は、全体に、MES式とコードを達成するために。
\(MSE = \ FRAC {1} {N} \和\ limits_ ^ N(Y_I {I 1 =} - \ハットY_I)^ 2 \)を
Nここで、サンプル数を表し、4
Yが予測される変数を表し、ここで性別であります
行きの列車は、可能なので、小さいほどMSEの値 - >ソルバーパラメータ
MSE作業メカニズム、所与の栗は、垂直出力は、パートナーのすべてが小さな姉妹です予測することが、ネットワークがあること、0であるとします。
フルネーム | \(Y_I \) (実測値) | \(\ハットY_I \) (予測値) | \((Y_I - \ハットY_I)\) |
---|---|---|---|
youge | 1 | 0 | 1 |
共有 | 1 | 0 | 1 |
ナイーブ | 0 | 0 | 0 |
BEYES | 0 | 0 | 0 |
\(MSE = \ FRAC {1} {4} + 1(1 + 1 + 0)= 0.5 \)
アルゴリズムのBPの自然 - チェーン・ルールの導出
今続けます...
常に我々の目標について明確にする:するニューラルネットワークの損失を最小限について本質的である、それの損失のための重みとバイアス機能
示されるように、以下の:
本実施形態の機能の喪失のような表現をパラメータ化することができます。
\(L(W_1、W_2、w_3、w_4、w_5、w_6、B1、B_2、B_3)\)
最適化は、最適化することが想定さwは今検討(W_1 \)\(すなわち、場合\(W_1 \) :ときに変更、Lどのように変化する)であり、\(\ FRAC {\部分L} {\部分W_1} \)
データセットが唯一の兄弟であると仮定すると、波の問題を簡単にするために。
フルネーム | \(Y_1 \) | \(\ハットY_1 \) | (\(Y_1 - \ハットY_1 \) ) |
---|---|---|---|
youge | 1 | 0 | 1 |
=この時MSEです\((Y_1 - \ハットY_1は)^ 2 =(\ ^ 2)\ハットY_1 1-)
計算する\(\ FRAC {\部分L } {\部分W_1} \) ネットワークに係る逆方向(出力- >入力)、選択されたそれぞれに対応する中間変数、これはその方法を見つけることができる。連鎖ルール誘導体:
\(\ FRAC {\部分L} {\部分W_1} = \ FRAC {\部分L} {\部分\帽子Y_1} * \ FRAC {\部分\帽子Y_1} {\部分W_1} \)
データ本実施例では、既知から\(L =(2 ^ \)\ハットY_1 1-) 、上記式第1部分は順不同であってもよいです。
\(\ Fracの{\部分L} {\部分Y_1} = \ FRAC {\部分(1- \ハットY_1)^ 2} {\部分Y_1} = -2(1- \ハットY_1)\)
次いで、第二の部分 (\ \ FRAC {\部分\帽子Y_1} {\部分W_1} \) 図関連する変数で観察されたが、参照(H_1、H_2、O_1 \ \ ) ニューロンの出力を表し、すなわち:
\(\ハットY_1 = O_1 = F(w_5 H_1 + w_6 H_2 + B_3)\)
バック広めるために続けて....
そして、我々の懸念がある\(W_1 \) 、プラグインのラインが、知っているだろうH2とW1はH1をどうするだけでは関係ありません、そして、の波戻ってくる連鎖ルールの導出を
$ \ FRAC {\部分\帽子Y_1} {\部分W_1} = \ FRAC {\部分\帽子Y_1} {\部分H_1} * \ FRAC {\部分H_1} {\部分W_1} $
同様ルーチン、第一の部分
\(\ FRAC {\部分\帽子Y_1} {\部分H_1} = \ FRAC {F(w_5h_1 + w_6h2 + B_3)} {\部分H_1} = w_5 * [F '(w_5h_1 + w_6h2 + B_3)] \)
\(F「(w_5h_1 + w_6h2 + B_3)\) Fと見られ、この事実(x)は、それの値の関数の引数はそのようにしているどのように多くの項目に関係なく。
第二の部分と同じ滴下処理であります
$ \ FRAC {\部分H_1} {\部分W_1} = \ FRAC {F(W_1 X_1 + W_2 X_2 + B_1)} {\部分W_1} = W_1 * [F '(w_1x_1 + W_2 X_2 + B_1)] $
我々は最終的に、X_1は、本明細書で、本実施形態の高さであり、入力値にX_2体重を歩んでいる。F(x)はに等しいである場合(実値0-1にマッピングされた)活性化機能
\(F(X)= \ FRAC {1} {1 + E ^ { - X}} \)
この関数は、ああ、誘導体であるスキルポイント、使用される場合のロジスティック回帰前に由来\(F(X)「= F(X)、(1-F(X))\)
使用したフラクショナル導出方法:
\(F(X)」= \ FRAC {0 - (-e ^ { - X)}}、{(1 + E ^ { - X})^ 2} \)
\(= \ FRAC {1} {1 + E ^ { - X}} * \ FRAC {E ^ { - X}} {1 + E ^ { - X}} \)
\(= F(X)(1-F(X))\)
ロジスティック回帰の時間微分でこの結果は、非常に重要なああ、してください一次微分と二次微分を使用する必要があります
操作の波の概要トップ、実際には、連鎖ルールの導出:
\(\ FRAC {\部分L} {\部分W_1} = \ FRAC {\部分L} {\部分\帽子Y_1} * \ FRAC {\部分\帽子Y_1} {\部分H_1} * \ FRAC {\部分H_1} {\部分W_1} \)
ネットワークの観点からの方向では、からなる>入力-出力ような逆エラー伝播実際には、我々が通常言う、コアは、それがそのように連鎖ルールの導出であるが、BPアルゴリズム。
だから、多くの名詞ニューラルネットワークの後、あなたはツメガエルを見ると、ああ、元はちょうどそれのいくつかの基本的な数学の知識を使用し、威嚇の人々にあります
ケース1:偏微分を計算する(リンクルール)
入力します(すでに集中):
フルネーム | 重量 | 高さ | 性別(Y) |
---|---|---|---|
youge | -2 | 5 | 1 |
アウトプットコンペア
フルネーム | \(Y_I \) | \(\ハットY_1 \) | (\(Y_1 - \ハットY_1 \) ) |
---|---|---|---|
youge | 1 | 0 | 1 |
同様に、より便利な計算のために、すべての重量は全て0であるオフセット、1であると仮定
マップ
\(H_1 = F(W_1 X_1 + W_2 X_2 + B_1)\)
\(= F(-2 + 5 + 0)\)
\(= F(3)= 0.952 \)
続けて、
\(H_2 = F(w_3x_1 + w_4 X_2 + B_2)\)
\(= F(-2 + 5 + 0)= H_1 = 0.952 \)
続けて、
\(O_1 = F(w_5h_1 + w_6h_2 + B3)\)
\(= F(0.952 + 0.952 + 0)= 0.721 \)
波を停止し、コードが最初に遅い遅い、最初のチェックイン時に何のバグはありません。