1_ロジスティック回帰機械学習ノート

@

1ロジスティック回帰

LRと呼ぶロジスティック回帰ロジスティック回帰、分類に適しました

1.1 LRモデル

線形回帰モデルのために、適合させる必要\(Y = X \シータ+ B \) 、連続的な回帰の問題に適した機能を、分類問題のために、別個のラベルのシリーズは、例えば、バイナリに必要カテゴリ0,1シグモイド関数を予測する必要が離散問題に継続的に問題に使用することができます。

\ [G(Z)= \ FRAC {1} {1 + E ^ { - }、Z}を\]

画像シグモイド関数は:
シグモイド
前記\(+ \ inftyの\にZ \) \(G(Z)\ 1 \)、\ (Z \に- \ inftyの\)場合、\(G(Z) \ 0 \)にシグモイド関数の誘導体である:。
\ [G「(Z)= G(Z)(1-G(Z))\]
\(Z = \シータX + B \) その後:
\ [H_ \シータ(X)
= \ FRAC {1} {1つの+ E ^ { - \シータX + B}} \] 分類確率が1であるようならば、バイナリ分類のために、関数の出力は、理解することができますXは、と呼ばれる(\ [{X ^(1)}、{X ^(2)}、...、{X ^(M)}])\\(\シータ\)と呼ぶ[\ theta_1(\ 、\ theta_2、...、\ theta_m ] \) モデルパラメータを推定するために、LR行列形式として:
\ [H_ \シータ(X-)= \ {FRAC 1 1 + E {} ^ { - \シータ。 X ^ T + B}} \ ]

1.2損失関数

以降(H_ \シータ(X)\ \) として分類される確率を示し、と比較して、ゼロ確率として分類されている\(1-H_ \シータ(X-)\)我々ができ、離散確率変数の場合、分配書き込みカラム:
|。Y | 1 | 0 |
| - | - | - |
| | \(H_ \シータ(X)\) | \(1-H_ \シータ(X)\。)
式subpresentationは
| [P(X、Y \
= H_ \シータ(X)^ Y(1-H_ \シータ(X))^ {1-Y} \ \シータ)] これは\(Y \)分布機能、シータ\の機能を推定するパラメータを表し、確率論に精通し、パラメータの分布関数を推定するために、知っているモーメント推定とも呼ば選挙の最大尤度法、最尤法、の2種類を持つことができます:彼の概念が書き込ま最尤法、
最尤法
訓練サンプルの全てと仮定言い換えれば、\(Y_1、Y_2、..、 y_m \) 確率変数に対応する(Y_1、Y_2、Y_m \が\ ) は独立しています同一分布、分布関数\(P(Y | X、\シータ)\) 各分布関数の積であるIID確率変数の同時分布関数は、この関節尤度関数の分布関数が呼び出され:として表す
(\ [L(\シータ)= \ prod_ {I = 1} ^ {M} H_ \シータ(X ^ {(I)})^ {\ハット{Y} ^ {(I)}} 1-H_ \シータ(X ^ {(I)}))^ {1- \帽子{Y} ^ {(I)}} \]
番号場合ため尤度関数の最大値をとる\(\シータ\) SE最大後\(\シータ\)は、すなわち、同じである:
\ L \ [ARGMAX(\シータ)= \ ARGMAX \ログ[L(\シータ)
] \] したがって、我々は、一般的に対数尤度関数を使用して、尤度関数の逆である損失関数、尤度関数を最大化する損失関数を最小化することである:
\ [J(\シータ)= - \ L LN(\シータ) = - \ sum_ {I = 1} ^ {M} \帽子{Y} ^ {(I)} \ LN H_ \シータ(X ^ {(I)})+(1- Y ^ {(I)}) \ LN(1-H_ \シータ(X ^ {(I)}))\]

最小値をとる場合には損失関数?もちろん、その誘導体0友人を取るための時間です。そのノート\(\シータが\) m個のパラメータを表すが推定される(\ theta_1、\ theta_2、...、\ \ theta_m)\、必要とする各偏微分行列は0極端な値であることとき損失関数:として表現方法
- \ [(EY)^ T \ログ(E-H_ \シータ(X-))\ J(\シータ)= -Y ^ T \ログH_ \シータ(X-)] \(E \)これは単位行列であります

1.3最適化

对于二分类的LR,可以使用梯度下降法,坐标轴下降法,牛顿法等。梯度下降法容易理解,就是参数按照梯度减小的方向更新(形式上的推导),
\[\theta = \theta - \alpha \frac{\partial J(\theta)}{\partial \theta}\]
在LR中,我们在最开始给出了SIgmoid的导数,因此用梯度下降法更新参数可以表示为:
\[\theta = \theta -\alpha X^T(h_\theta(X)-Y)\]
而牛顿法最初是用来求解函数零点的,而极值代表一阶导数的零点,因此可以用牛顿法。记\(J'(\theta)\)为一阶偏导数,\(J''(\theta)\)为二阶偏导数,则有:
\[\theta = \theta - \alpha \frac{J'(\theta)}{J''(\theta)}\]
坐标轴下降法则是固定一个坐标,沿着另外一个坐标寻找最优点,适合于导数不连续的情况。

1.4 Regulization(正则化)

为什么要正则化,这是因为机器学习模型中,学习到的参数\(\theta\)是直接与特征向量\(X\)相乘的,如LR中有:
\[h_\theta(x) = \frac{1}{1+e^{-\theta x+b}}\]
\(X\)不变的情况下,如果\(\theta\)特别大,那乘积就会特别大,假如在测试的时候,某个测试样本跟训练样本的分布不太一样,那么经过参数\(\theta\)放大后可能得到一个非常离谱的值。参数的取值过大会让模型异常敏感,也容易过拟合,那么如何避免这种情况呢?一种可行的方法就是,我们不希望学习到的参数\(\theta={\theta_1,\theta_2,...,\theta_m}\)取值太大,那就让他们尽量接近于0,即:
\[\min \sum_{i=1}^{m} ||\theta_i||\]
矩阵表达就是\(\min ||\theta||_1\),我们称为L1正则项,同样的,也有L2正则项
\[\frac{1}{2}||\theta||_2^2=\frac{1}{2}\sum_{i=1}^{m} ||\theta_i||^2\]
因为正则项也是关于\(\theta\)的函数,也是我们要优化的目标之一(目标是让它最小),这样就可以合并到损失函数中:
\[J(\theta) = -Y^T\log h_\theta(X)-(E-Y)^T \log (E-h_\theta(X))+\lambda_1 ||\theta||_1\]

\(\lambda_1\)是正则项的权重。加入正则项后,学习到的参数就不会太大,模型也就没那么敏感。当然,如果正则项的权重过大,那所有的参数\(\theta\)会很小,模型会异常不敏感,基本所有的输入都会得到一个差不多的输出,所有这个权重也要仔细考虑。
此外,由于\(b\)是直接加到优化函数后的,相当于对函数做平移,我们并不需要正则化这个参数。

1.5多元逻辑回归

多変量ロジスティック回帰は、各クラスの確率は、ソフトマックス関数を用いて計算される、2元の場合の一般化です。Kをサブクラスに想定され、各パラメータは、学習することである\((\ theta_1、B_1) 、(\ theta_2、B_2)...、(\ theta_k、b_kを)\) と呼ば
[Z_1 = \ theta_1x + B_1 \ \ \ Z_2 = \ theta_2x + B_2 \\
... \\ z_k = \ theta_kx + b_k \] 次に、X各カテゴリの確率に属するのように計算することができる:
\ [Y_1 = \ E ^ {Z_1 FRAC {} {} \ sum_ {i = 1} ^ {K } E ^ {z_k}} \\ Y_2 = \ FRAC {E ^ {Z_2}} {\ sum_ {i = 1} ^ {K} E ^ {z_k}} \\ .. 。\\ Y_K = \ FRAC {E
^ {z_k}} {\ sum_ {i = 1} ^ {K} E ^ {z_k}} \\ \] 下記
ここに画像を挿入説明
のSoftMax事実、製造前の入力増幅器に相当正規化。
損失関数における複数のクラスを算出し、エントロピーは、ワンホット行列を使用するには、この時間は複数のクラスで使用される:
\ [\帽子_1 = {Y} \ \\ 1始める{0} pmatrixの。 \\ ... \\ 0 \端{pmatrixの } \帽子{Y} _2 = \開始{pmatrixの} 0 \\ 1 \\ ... \\ 0 \端{pmatrixの} \帽子{Y} _k = \ 開始{pmatrixの0} \\ 0 \\
... \\ 1 \端{pmatrixの} \] 使用して特定の計算:
\ [\分- \ sum_ {I} = ^ {K} 1 \ハット{Y } _i \ LN Y_I \]

1.6まとめ

独自の実験データセットは、23万データを持っている結果から、LR数の精度が鍵が速い訓練することで、高いです。

おすすめ

転載: www.cnblogs.com/cuiyirui/p/11920668.html