ロジスティック回帰機械学習を理解するための統一されたフレームワークに従ってください

ロジスティック回帰機械学習を理解するための統一されたフレームワークに従ってください

タグ:機械学習LR分類

I.はじめに

  1. 私のブログは私のアイデアや思考過程を記録するために、科学のブログの本質ではありません。指摘へようこそ私は死角と思いますが、私たちは私たち自身の理解を持つことができることを願っています。
  2. ネットワーク上の大量のデータをこの参照。

第二に、理解

統一された機械学習フレームワーク(MLA):

1.モデル(モデル)
2.戦略(損失)
3.アルゴリズム(アルゴリズム)

上述の枠組みによれば、LRは、コア機能の損失が使用されシグモイド及びクロスエントロピーを

LR:シグモイド+クロスエントロピー

余談:以前のブログを参照してください:SVMの機械学習を理解するための統一されたフレームワークに従ってください、あなたはLRで見つけるとSVMモデルとアルゴリズムは同じですが、違いは異なった損失関数です。

所与のデータセット\((x ^ 1、\の帽子{Y} ^ 1)、(X ^ 2、\帽子{Y} ^ 2)...(X ^ N、\帽子{Y} ^ N)\ 、ここで、\(\ハット{Y}は^ Iは\ {0,1 \}で\ \)、\ (Y \)は、予測を表し\(ラベル\) 値が、線形関数
\ [F(X)= Wを^のTx + bは\]

\ [Y = \開始{ケース
} 1、\クワッド&F(X)> 0 \\ 0、&F(X)<0 \端{ケース} \] 同時に:\(\ハット{Y} = 1 \) 場合、\(F(X)\)より良い; $ \帽子{Y} $ 0は、\(F(X)\)はできるだけ小さいです。

損失

ERM(クロスエントロピー損失関数):シグモイド+交差エントロピー。
シグモイド目的は、増大させることである\(F(X)\)クロスエントロピー損失を計算するため、0-1ズームの間の値を。

\ [\開始{整列}&Z = \シグマ(F(x))を\\&P(\ハット{Y} = 1 | X、W、B)= Z \\&P(\ハット{Y} = 0 | X ; W、B)] \ 1-Zの\端{整列を} =

\(Zの\)は、予測可能性を表します

経験的リスク

1。使用\(シグモイド+クロス\エントロピー\)的损失函数:
\ [\帽子{Y} = \ {ケースを}開始1、\。&F(X)> 0 \。&\シグマ(F(X))\ longrightarrow 1、&損失= -ln(Z)\\ 0、\。&F(X)<0 \。&\シグマ(F(X))\ longrightarrow 0、&損失= -ln(1-Z)\端{ケース} \]

\ [損失= - [\帽子{Y} LN Z +(1- \ハット{Y})LN(1-Z)] \]

2。最大尤度の観点から
トレーニングサンプルが独立しているという仮説は、尤度関数の式であります:

\ [\開始{整列}損失&= P(\ハット{Y} | X、W、B)\\&= \ prod_ {i = 1} ^ NP(\ハット{Y} ^ I | X ^ iは、 W、B)\\&= \ prod_ {i = 1} ^ N z_i ^ {\帽子{Y} ^ I}(1-z_i)^ {1-ハット{Y} \ ^ I} \\&= \ sum_ {i = 1} ^ n個の\帽子{Y} ^ ILN z_i +(1-ハット{Y} ^ \ I)のln(1-z_i)\端{整列} \]

このように、発見の観点とクロスエントロピー、得られた損失関数であっても同一の最大角度尤度から、それらはバックリンク未知の性質の存在を示します。
今、このリンクを模索し始めて。

3クロスエントロピーと最尤リンク
エントロピー

\ [H(X)= -E_ {X \ SIM P} [ログ{P(X)}] \]

KLダイバージェンス:KLは、2つの分布間の差を測定する
[\開始{整列} D_ \ {KL}(P || Q)&= E_ {X \ SIM P} [ログ\ FRAC {P(X)} { Q(X)}] \\& = E_ {X \ SIM P} [ログ{P(X)} -ログ{Q(X)}] \端{整列} \]

\(D_ {KL}(P || Q)が\) 選択表す(Q \)\、そのので\(P \)ここで、高い確率を有する可能性が高いです。簡単に言えば、パラメータのセットを見つけるために指示された\(Q \)とき:パラメータのセット分布は、行われるべきである(P \)を\ときに、ローカルの高確率分布、パラメータのこのセットは、高確率に撮影することができます。

クロスエントロピー
\ [\開始{整列} H (P、Q)&= H(P)+ D_ {KL}(P || Q)\端{整列} \]

私たちの特定のシナリオのために:\(\ハットY} {\)に対応する分布(P \)\分布、\(Y \)に対応する分布(Q \)\分布。(帽子{Y} \ \ \ ) 分布が決定され、\(Y \)分布は、我々が問うものです。換言すれば、そう\(Y \)分布は近似してみてください\(\ハット{Y} \ ) 分布。

このシナリオでは、\(\ハットY} {\)が決定されるが、(事前分布)不明。

\ [\ H(\ハット{Y}、Y)&= H(\ハット{Y}){整列}始める+ D_ {KL}(\ハット{Y} || Y)\\&= - E_ {X \のSIM \帽子{Y}} [ログ\帽子{Y}] + E_ {X \ SIM \帽子{Y}} [ログ{\帽子{Y}(X)} - ログ{Y(X)}] \ \&= E_ {X \ SIM \帽子{Y}} - ] {Y(X)} \端{整列を} \ログ

我々は、クロスエントロピーを最小化する場合:
; \; \ [\ {整列}&分\を開始H(\ハット{Y}、Y)\\&分\; \; D_ {KL}(\ハット{Y} || Y )\\&分\; \; E_ {X \ SIM \帽子{Y}} [{\帽子{Y}(X)}ログ-ログ{Y(X)}] \\&分\; \; E_ {X \のSIM \帽子は{Y}は} -ログ{Y(X)} \端{整列} \]

場合\(\ハット{Y} \ ) 分布が知られているエントロピーは一定であり、その後、クロスエントロピー及びKL発散は等価です。
以下のための\(Y \)ので、KL発散を最小限にクロスエントロピー等価を最小限に抑えるために(H(\ハット{Y} )\)\ と\(Y \)の独立しました。

最後ことに注意してください\(E_ {X \ SIM \ -ログ{Y(X)} \ハット{Y}}) エントロピー\(H(Y)\)との差を。しかし、この式のため、;エントロピーは、既に生成された必要な情報配信イベントの総量を見つける、xの確率分布を知っている変数です\(Y- \) 分布の未知され、我々が求めているものです。我々だけしたい(Y \)\\(\帽子{Y} \ ) に類似またはそれに近い間としてではなく、彼らはそれぞれの正確な分布を知るために必要なものさ(つまり、確率分布を知る必要はありません式)、そうKLダイバージェンスが直接ライン上でそれらの間の違いを定義します。
また、低次元空間を作る導入SVM、上のカーネルは、高次元空間に上昇し、その後、その内積を計算し、このプロセス全体のために、我々は最終的には必要なときにここでそれを考える内積の結果であり、 。複雑なプロセスの途中を飛ばし、究極の目標を達成しながら、計算量を削減するために、カーネルの導入は、私たちは何リットル次元ルック特に知りません。

KL発散を最小限にし、最尤推定およびパラメータ推定を用いたモデルは同じであるので、KLダイバージェンスに関連付けられたクロスエントロピー及び最尤推定されます。

アルゴリズム

勾配降下

\(\シグマ(X)「= \シグマ(X)(1- \シグマ(X))\)
$ ;;損失分= - \ sum_ {i = 1} ^ n個の\ハット^ {Y}とLN z_i +(1-ハット\ {Y ^} I)のln(1-z_i)$
\(Z = \シグマ(F(X))\)

iはFRAC {1} {z_i} z_i(1- \ \ sum_ {i = 1} ^ n個の\帽子{Y} ^ - \ [\ FRAC {\部分L} {\部分W}&= \ {整列}始めz_i)X ^ I +(1-ハット{Y} ^ i)が\ FRAC {1} {1-z_i}(-1)z_i(1-z_i)\ X ^ I \\&= - \ sum_ {i = 1 } ^ n個の\帽子{Y} ^ I(1-z_i)X ^ I-(1- \ハット{Y} ^ I)z_ix ^ iが\\&= - \ sum_ {i = 1} ^ N(\帽子{Y} ^ I-z_i)X ^ I \\&= - \ sum_ {i = 1} ^ N(\ハット{Y} ^ I- \シグマ(W ^送信^ iは+ B))はx ^ I \端{整列} \]

\ [\開始{整列} ^ {K + 1}&= W ^ K W - \イータの\ FRAC {\部分L} {\部分W} \\&= W ^ K + \イータの\ sum_ {i = 1} ^ N(\ハット{Y} ^ I-z_i)X ^ I \端{整列} \]

顕著な特性勾配更新がある\(\ハット{Y} ^ I-z_iの\) 、そしてときにそれらの間に大きなギャップ、大きな勾配の更新が。

第三に、展開します

上記モデル\(\ハット{Y} ^私は\ {0,1 \} \ \で)異なる表現で、:\(\ハット{Y} ^ Iが\ {で\ 1、-1 \ } \) またはシグモイド+交差エントロピー法による損失関数を作成します。
この場合:
\ [\ハット{Y} = \ケース} {開始1、\;&F(X)> 0 \;&\シグマ(F(X))\ longrightarrow 1、&損失= -ln(Z)\\。 -1、\;&F(X )<0 \;&\シグマ(F(X))\ longrightarrow 0、&損失= -ln(1-Z)= - LN(-z)\端{ケース} \]

上記の式への参照は、変換SVM機械学習を理解するための統一されたフレームワークに従うこと

综合得来:
\ [\開始{整列}損失&= - \ sum_ {i = 1} ^ n個のLN(\シグマ(\ハット{Y} ^ IF(X ^ I)))\\&= - \ sum_ {i = 1} ^ n個のLNの\ FRAC {1} {1 + EXP( - \帽子{Y} ^ IF(X ^ I))} \\&= \ sum_ {i = 1} ^ n個のLN(1+ EXP( - \帽子{Y} ^ IF(X ^ I)))\端{整列} \]

\ [\ {整列}開始\ FRAC {\部分L} {\部分W} - = - \ sum_ {i = 1} ^ n個の\ FRACは、{1} {\シグマ(\ハット{Y} ^ IF(X ^ I))} \シグマ(\ハット{Y} ^ IF(X ^ I))(1- \シグマ(\ハット{Y} ^ IF(X ^ I)))\ハット{Y} ^ IX ^ iは\ \&= - \ sum_ {i = 1} ^ N(\ハット{Y} ^ I- \帽子{Y} ^ iは\シグマ(\ハット{Y} ^ IF(X ^ I)))は、x ^ I \端{整列} \]

\(\ハット{Y} ^ i = 1 \)时、\ [\ FRAC {\部分L} {\ W部分} = - \ sum_ {i = 1} ^ N(1- \シグマ(F(X ^ I)))は、x ^ i]が\します

\(\ハット{Y} ^ i = -1 \)时、\ [\ FRAC {\部分L} {\部分W} = - \ sum_ {i = 1} ^ N(-1+ \シグマ(-f (X ^ I)))X ^ i = - \ sum_ {i = 1} ^ N(-1 + 1- \シグマ(F(X ^ I)))X ^ i = - \ sum_ {i = 1} ^ N - \シグマ(F(X ^ i))を、X ^ I \]

これは、と見ることができる(\帽子{Y} ^ iは {1,0 \}で\ \ \)\ 全く同じ。

おすすめ

転載: www.cnblogs.com/SpingC/p/11622726.html
おすすめ