スイカブック章 - リニアロジスティック回帰モデル[](対数回帰確率)

本論文の主なポイント:最初の部分は、物流の概念の理解を強調しています。式の第二部分は、式を導出するために2つの観点、一般化線形モデルの観点から1から主に考えて、話す導出される、別の点は、ベルヌーイ分布から導出されます。

コンセプト物流の理解の最初の部分

非線形マッピングの線形回帰

私たちは、物流がそう聞いてきた生活の分類を返すのではなく、文字通りの意味に戻り、その後、それを返すと、それは何を問題ではないのですか?

線形回帰モデルでは、線形回帰は、それの特性の線形結合である理由の視点、について話されましたか?

  • 一つは(\オメガ\)を\、視覚的にそれぞれの権利を表示する小さな重要属性
  • 第2のモデルは十分に簡単です、あなたは高次元マッピングを増やすことができ、非線形モデルは線形回帰モデルに基づいているになります。

例えば:
\ [^のTx Y = W + B \]
言い換えれば、非線形変換、指数変換、しかし、予測値、予測値の対数が線形変換であり、次のように:
\ [LNYのTx + B = W ^ \ ]

図線形予測値と考えることができる\(Y「\)非線形(Y \)\のマッピング:

\ [= E ^ {Y_I Y_I '} = LN ^ { - 1}(Y_I')\]

上述したマッピングは、 "一般化線形モデル"の特別な形式である:
\ [Y = G ^ { - 1}(^のTx +のB W)\]
\(G(\ CDOTが)\)連続及び実質的に滑らかを必要と接触関数であり、上記の例は、\((\ CDOT)= G LN(\ CDOT)が\) 特殊なケースです。

コア物流は分類が、なぜコールバックされますか?

2カテゴリを行う場合:最も簡単な方法はステップ関数である
\ [Y = \左\ { \ 0} \\ {0.5} <^のTx + bのwは{{アレイ} {CC} {0}開始& &{W ^のTx + B =
0} \\ {1}と{W ^のTx + B> 0} \端{アレイ} \右\]。 しかし、ステップ関数は、致命的な欠点を有する:非導電性。特に綿密な研究で、バックプロパゲーションプロセスは、逆導出関数を必要とします。したがって、我々は別の機能提案対数確率(奇数)関数:(ロジスティック関数)\
{1} {1 + E ^ { - Z}}。[Y = \ FRACを= FRAC \ {1} {1 + E ^ { - (W ^のTx + b)は}
} \] 上記関数とも呼ばれる\(シグモイド\)関数:

\(シグモイド\) 第1の比較コンテンツと一緒に変換する機能、
\ [\ LN \ FRAC {Y} = {} 1-Y \ boldsymbol {W} ^ {\ mathrm {T} \ {boldsymbol X} + B \]
バックと呼ばれる理由は、この式は、単に線形回帰式と同じように、実際には、戻り値の分類を予測することがあるん、説明します

注:sklearnのLogisticsRegression呼び出し、この関数は、戻り値はcoef_ここにある\(\オメガ\)

ロジスティック回帰式の導出の第二の部分[コアの方法:MLE]

ロジスティック回帰の本質上記で説明した線形モデル+シグモイド関数(非線形マッピングが)、これは、インデックスレベルyを当てはめるに変えることができると述べました。そして、なぜこの組み合わせ物流回帰であり、どのようにバイナリモデルを訓練するために、この組み合わせを使用する方法を説明していません。

  • 私たちは、派生式が必要になります。

\ [\ varPhi = \ FRAC {1} {1 + E ^ { - W ^送信}} \\ \]

  • モデルが得られた要求事項:w
    (Y軸= 1 | X)[\ mathop {\アルギニン\分間} _ {W} \ sum_ {I = 1} ^ N [y_ilogp \ +(1-Y_I)のlogP(Y = 0 | X )] \]
    この式から分かるように、ロジスティック回帰式は、負のクロスエントロピーの最大値(すなわち、最小クロスエントロピー)を見つけることであるwパラメータを。

複雑なバージョン:一般化線形モデル

物流回帰式は、二つの角度から導出することができ、より複雑な命令は、一般化線形モデルを起動します。

調べるために广义线性模型、我々は最初の二つの概念を知っている必要があります。指数族分布そして、需要满足的三条假设

知識ポイント1:指数家族配布法

次分配則に従うだけグループインデックスと呼ぶことができる
。\ [\(\ ETA Y)= B(Y)EXP({\ ^ TT ETA(Y)-a(\ ETA)})P]
前記\(A (\ ETA)が\) 最大分布法則ように。1、パーティション関数である\(\ ETA \)は、パラメータの自然な分布で、\(T(Y)\)十分統計量です。


注1:伯努利分布指数家族の分布であります

知られているベルヌーイ(ベルヌーイ分布)、二点分布または0-1分布は、ベルヌーイ分布の前に導入する必要が導入ベルヌーイ試行(ベルヌーイ試行)

  • ベルヌーイ試行は 2つだけの可能な結果である単一の無作為化試験:確率変数Xの目的のために、すなわち
    {[X = 1] = {P}開始\\&P_r [X = 0] \ [\}整列P_r = {}&1-Pの\の端{整列} \]

ベルヌーイ試行は、「yesまたはno」の質問のように表すことができます。例えば、コイントスは右フロントアップしているのですか?新生児子供は女の子ですか?

  • 試験はベルヌーイ実験Eである場合、Eは繰り返されるn回独立して独立した実験の繰り返し配列と言われているn重ベルヌーイ試行

  • ベルヌーイ試行後、成功が(X = 1)確率pである(0 <= p <= 1)、 確率1-Pと(X = 0)失敗し、確率変数Xは、ベルヌーイ分布に従うと言われています。ベルヌーイ分布は離散確率分布、確率質量関数である:
    [F \は(X \右)左\ = P ^ X \左1-X ^ {} = \左\ {(1-P \右)。 \開始{アレイ} {1} 、P \\ 1-P \\ 0 \\端{アレイ} \開始{アレイ} {C}、X = 1 \\ X = 0 \\ \テキスト{\ 別} \\ \右\端{アレイ}。\ ]


したがって、ベルヌーイ分布を有する上記の定義は次のとおり
。[\}整列\ {P(Y)= {}&\ varphi ^ Y(1- \ varphi)1- ^ {Y} = {}&経験を開始\\ (LN(\ varPhi ^ Y( varPhi \ 1-)^ {1-Y}))\\ = {}&EXP(Y \のCDOTのLN(\ FRAC {\ varPhi} {1- \ varPhi})+ LN( varPhi))\端{\ 1-
整列} \] :指数関数ファミリーの定義された比率(; \ ETA)= B(Y)EXP({\ ^ TT ETA(Y P(Y)-a(\ ETA \ )})\)

ベルヌーイが実際に指数分布を有している:
\ [\整列開始{B}(Y)} = {\\&T. 1(Y)} = {Y&\\ \&ETA} = {LN(\ FRAC {\ varPhi} {1- \ varPhi}) \\(\ ETA)= {}&-ln(varPhi \ 1-)= LN(1 + E ^ \のETA)\端{整列} \]

知識ポイント2:必要に応じて3つの仮定一般化線形モデル

  1. 所与のX、指数ファミリー分布Y必要な被写体(満足させます)
  2. Xが与えられると、訓練されたモデルは、所望の統計の全額に等しい:\(H(X-)= E [T(Y- | X-)] \)
  3. Naturalパラメータ\(\ ETA \) 観測変数xについて、リニア:\(\ ETAのTx = W ^ \)

最初の記事によれば、ベルヌーイ分布は、確率pで(X = 1)成功し、確率1-Pと(X = 0)に失敗しました。本実施形態のラベルの確率P 0、Pの確率は、2つの分類タグが0であることが明らかである場合は1に設定された2つの分類問題0/1、であり、分布が一次の典型的なものですベルヌーイ分布。

第二:
\ [\開始{H}(X)を整列= {}&E [T(Y | X)] = {} \\&E [Y | X] = 1 \タイムズP(= Y. 1)。回P \ +0(Y = 0
)=終了\ P(Y = 1)= \ varPhi \] {整列} と:

\ [\イータ= LN(\ FRAC {\ varPhi} {1- \ varPhi})\ RIGHTARROW \ varPhi = \ FRAC {1} {1 + E ^ { - \ ETA}} \]

条:\(\ ETAのTx = W ^ \)上記の式に

要約すると:
\ [\ varphi = \ {FRAC 1 1 + E {} ^ { - }。} W ^送信\]

次のターゲットモデル `w`を取得する方法?

Y分布法を次のように

私は当初理解していなかった:\(Y(Y = 1 | X)=シグマ(^のTx)= \ W \ - TxのW ^ \。{FRAC 1. 1 + E {} ^ {}。})および\(Y(Y = 0 | X)= \シグマ (W ^のTx)= \ FRAC {E ^ { - W ^送信}} {1 + E ^ { - ^送信} wは} \) 、これらの2つの式は、理解できるであろう\ (\シグマ(Z)\)出力0.1、...、0.6、0.9であると仮定されます。大きな値の出力、1近いほど、より大きな確率に分けました。したがって、天然に\((Y = 1)\ ) とみなされている確率\(\シグマ(W ^のTx)\)

Zhihua版:
\ [P(Y | X; \ベータ)= Y \ CDOT P(Y = 1の| X; \ベータ)+ CDOT P \(1-Y)(Y = 0 | X; \ベータ)\]
アンドリュー・ウ版:
\ [P(Y | X; \ベータ)= [P(Y = 1の| X; \ベータ)] ^ Y + [P(Y = 0 | X; \ベータ)] ^ {1-Y} \ ]

これはよく統合、上記の二つの方程式ことがわかる\(Y = 1 \)\(Y = 0 \)の両方の場合において

上記の二つの分布の法則によると仮定し、[MLE]を導出することができる最尤推定を使用している:
\ [\整列開始{} \ {mathop \アルギニン\} _最大{W} P(Y | X)をログ= {}&\ mathop {\のarg \最大} _ {W} \ sum_ {i = 1} ^ {N}ログP(Y_I | X_I)\\ = {}&\ mathop {\のarg \最大} _ {W } \ sum_ {i = 1} ^ N [y_ilogp(Y = 1 | X)+(1-Y_I)のlogP(Y = 0 | X)] \端{整列} \]

注意:本の式ズハウ・ジワのバージョンはスイカがあまりにも複雑に導出され、式のアンドリュー・ウバージョンは非常に良いプッシュですが、また多くの場合、派生を参照してください。

追加の知識:派生シグモイド関数

xの単一引用符誘導体を表す:ことを証明することは容易
\ [\シグマ(Z) ' = \シグマ(Z)(1- \シグマ(Z))\]を

おすすめ

転載: www.cnblogs.com/wangjs-jacky/p/11790008.html