ディレクトリ
本論文の主なポイント:最初の部分は、物流の概念の理解を強調しています。式の第二部分は、式を導出するために2つの観点、一般化線形モデルの観点から1から主に考えて、話す導出される、別の点は、ベルヌーイ分布から導出されます。
コンセプト物流の理解の最初の部分
非線形マッピングの線形回帰
私たちは、物流がそう聞いてきた生活の分類を返すのではなく、文字通りの意味に戻り、その後、それを返すと、それは何を問題ではないのですか?
線形回帰モデルでは、線形回帰は、それの特性の線形結合である理由の視点、について話されましたか?
- 一つは(\オメガ\)を\、視覚的にそれぞれの権利を表示する小さな重要属性
- 第2のモデルは十分に簡単です、あなたは高次元マッピングを増やすことができ、非線形モデルは線形回帰モデルに基づいているになります。
例えば:
\ [^のTx Y = W + B \]
言い換えれば、非線形変換、指数変換、しかし、予測値、予測値の対数が線形変換であり、次のように:
\ [LNYのTx + B = W ^ \ ]
図線形予測値と考えることができる\(Y「\)非線形(Y \)\のマッピング:
\ [= E ^ {Y_I Y_I '} = LN ^ { - 1}(Y_I')\]
上述したマッピングは、 "一般化線形モデル"の特別な形式である:
\ [Y = G ^ { - 1}(^のTx +のB W)\]
\(G(\ CDOTが)\)連続及び実質的に滑らかを必要と接触関数であり、上記の例は、\((\ CDOT)= G LN(\ CDOT)が\) 特殊なケースです。
コア物流は分類が、なぜコールバックされますか?
2カテゴリを行う場合:最も簡単な方法はステップ関数である
\ [Y = \左\ { \ 0} \\ {0.5} <^のTx + bのwは{{アレイ} {CC} {0}開始& &{W ^のTx + B =
0} \\ {1}と{W ^のTx + B> 0} \端{アレイ} \右\]。 しかし、ステップ関数は、致命的な欠点を有する:非導電性。特に綿密な研究で、バックプロパゲーションプロセスは、逆導出関数を必要とします。したがって、我々は別の機能提案対数確率(奇数)関数:(ロジスティック関数)\
{1} {1 + E ^ { - Z}}。[Y = \ FRACを= FRAC \ {1} {1 + E ^ { - (W ^のTx + b)は}
} \] 上記関数とも呼ばれる\(シグモイド\)関数:
\(シグモイド\) :第1の比較コンテンツと一緒に変換する機能、
\ [\ LN \ FRAC {Y} = {} 1-Y \ boldsymbol {W} ^ {\ mathrm {T} \ {boldsymbol X} + B \]
バックと呼ばれる理由は、この式は、単に線形回帰式と同じように、実際には、戻り値の分類を予測することがあるん、説明します
注:sklearnのLogisticsRegression呼び出し、この関数は、戻り値は
coef_
ここにある\(\オメガ\)
ロジスティック回帰式の導出の第二の部分[コアの方法:MLE]
ロジスティック回帰の本質上記で説明した線形モデル+シグモイド関数(非線形マッピングが)、これは、インデックスレベルyを当てはめるに変えることができると述べました。そして、なぜこの組み合わせ物流回帰であり、どのようにバイナリモデルを訓練するために、この組み合わせを使用する方法を説明していません。
- 私たちは、派生式が必要になります。
\ [\ varPhi = \ FRAC {1} {1 + E ^ { - W ^送信}} \\ \]
- モデルが得られた要求事項:
w
(Y軸= 1 | X)[\ mathop {\アルギニン\分間} _ {W} \ sum_ {I = 1} ^ N [y_ilogp \ +(1-Y_I)のlogP(Y = 0 | X )] \]
この式から分かるように、ロジスティック回帰式は、負のクロスエントロピーの最大値(すなわち、最小クロスエントロピー)を見つけることであるw
パラメータを。
複雑なバージョン:一般化線形モデル
物流回帰式は、二つの角度から導出することができ、より複雑な命令は、一般化線形モデルを起動します。
調べるために广义线性模型
、我々は最初の二つの概念を知っている必要があります。指数族分布
そして、需要满足的三条假设
。
知識ポイント1:指数家族配布法
次分配則に従うだけグループインデックスと呼ぶことができる
。\ [\(\ ETA Y)= B(Y)EXP({\ ^ TT ETA(Y)-a(\ ETA)})P]
前記\(A (\ ETA)が\) 、最大分布法則ように。1、パーティション関数である\(\ ETA \)は、パラメータの自然な分布で、\(T(Y)\)十分統計量です。
注1:伯努利分布
指数家族の分布であります
知られているベルヌーイ(ベルヌーイ分布)、二点分布または0-1分布は、ベルヌーイ分布の前に導入する必要が導入ベルヌーイ試行(ベルヌーイ試行)。
- ベルヌーイ試行は 2つだけの可能な結果である単一の無作為化試験:確率変数Xの目的のために、すなわち
{[X = 1] = {P}開始\\&P_r [X = 0] \ [\}整列P_r = {}&1-Pの\の端{整列} \]
ベルヌーイ試行は、「yesまたはno」の質問のように表すことができます。例えば、コイントスは右フロントアップしているのですか?新生児子供は女の子ですか?等
試験はベルヌーイ実験Eである場合、Eは繰り返されるn回独立して独立した実験の繰り返し配列と言われているn重ベルヌーイ試行。
ベルヌーイ試行後、成功が(X = 1)確率pである(0 <= p <= 1)、 確率1-Pと(X = 0)失敗し、確率変数Xは、ベルヌーイ分布に従うと言われています。ベルヌーイ分布は離散確率分布、確率質量関数である:
[F \は(X \右)左\ = P ^ X \左1-X ^ {} = \左\ {(1-P \右)。 \開始{アレイ} {1} 、P \\ 1-P \\ 0 \\端{アレイ} \開始{アレイ} {C}、X = 1 \\ X = 0 \\ \テキスト{\ 別} \\ \右\端{アレイ}。\ ]
したがって、ベルヌーイ分布を有する上記の定義は次のとおり
。[\}整列\ {P(Y)= {}&\ varphi ^ Y(1- \ varphi)1- ^ {Y} = {}&経験を開始\\ (LN(\ varPhi ^ Y( varPhi \ 1-)^ {1-Y}))\\ = {}&EXP(Y \のCDOTのLN(\ FRAC {\ varPhi} {1- \ varPhi})+ LN( varPhi))\端{\ 1-
整列} \] :指数関数ファミリーの定義された比率(; \ ETA)= B(Y)EXP({\ ^ TT ETA(Y P(Y)-a(\ ETA \ )})\)
ベルヌーイが実際に指数分布を有している:
\ [\整列開始{B}(Y)} = {\\&T. 1(Y)} = {Y&\\ \&ETA} = {LN(\ FRAC {\ varPhi} {1- \ varPhi}) \\(\ ETA)= {}&-ln(varPhi \ 1-)= LN(1 + E ^ \のETA)\端{整列} \]
知識ポイント2:必要に応じて3つの仮定一般化線形モデル
- 所与のX、指数ファミリー分布Y必要な被写体(満足させます)
- Xが与えられると、訓練されたモデルは、所望の統計の全額に等しい:\(H(X-)= E [T(Y- | X-)] \)
- Naturalパラメータ\(\ ETA \) 、観測変数xについて、リニア:\(\ ETAのTx = W ^ \)
最初の記事によれば、ベルヌーイ分布は、確率pで(X = 1)成功し、確率1-Pと(X = 0)に失敗しました。本実施形態のラベルの確率P 0、Pの確率は、2つの分類タグが0であることが明らかである場合は1に設定された2つの分類問題0/1、であり、分布が一次の典型的なものですベルヌーイ分布。
第二:
\ [\開始{H}(X)を整列= {}&E [T(Y | X)] = {} \\&E [Y | X] = 1 \タイムズP(= Y. 1)。回P \ +0(Y = 0
)=終了\ P(Y = 1)= \ varPhi \] {整列} と:
\ [\イータ= LN(\ FRAC {\ varPhi} {1- \ varPhi})\ RIGHTARROW \ varPhi = \ FRAC {1} {1 + E ^ { - \ ETA}} \]
条:\(\ ETAのTx = W ^ \)上記の式に
要約すると:
\ [\ varphi = \ {FRAC 1 1 + E {} ^ { - }。} W ^送信\]
Y分布法を次のように
私は当初理解していなかった:\(Y(Y = 1 | X)=シグマ(^のTx)= \ W \ - TxのW ^ \。{FRAC 1. 1 + E {} ^ {}。})および\(Y(Y = 0 | X)= \シグマ (W ^のTx)= \ FRAC {E ^ { - W ^送信}} {1 + E ^ { - ^送信} wは} \) 、これらの2つの式は、理解できるであろう\ (\シグマ(Z)\)出力0.1、...、0.6、0.9であると仮定されます。大きな値の出力、1近いほど、より大きな確率に分けました。したがって、天然に\((Y = 1)\ ) とみなされている確率\(\シグマ(W ^のTx)\) 。
Zhihua版:
\ [P(Y | X; \ベータ)= Y \ CDOT P(Y = 1の| X; \ベータ)+ CDOT P \(1-Y)(Y = 0 | X; \ベータ)\]
アンドリュー・ウ版:
\ [P(Y | X; \ベータ)= [P(Y = 1の| X; \ベータ)] ^ Y + [P(Y = 0 | X; \ベータ)] ^ {1-Y} \ ]
これはよく統合、上記の二つの方程式ことがわかる\(Y = 1 \)と\(Y = 0 \)の両方の場合において
上記の二つの分布の法則によると仮定し、[MLE]を導出することができる最尤推定を使用している:
\ [\整列開始{} \ {mathop \アルギニン\} _最大{W} P(Y | X)をログ= {}&\ mathop {\のarg \最大} _ {W} \ sum_ {i = 1} ^ {N}ログP(Y_I | X_I)\\ = {}&\ mathop {\のarg \最大} _ {W } \ sum_ {i = 1} ^ N [y_ilogp(Y = 1 | X)+(1-Y_I)のlogP(Y = 0 | X)] \端{整列} \]
注意:本の式ズハウ・ジワのバージョンはスイカがあまりにも複雑に導出され、式のアンドリュー・ウバージョンは非常に良いプッシュですが、また多くの場合、派生を参照してください。
追加の知識:派生シグモイド関数
xの単一引用符誘導体を表す:ことを証明することは容易
\ [\シグマ(Z) ' = \シグマ(Z)(1- \シグマ(Z))\]を