データマイニング:モデルの選択 - ロジスティック回帰

ロジスティック回帰

線形回帰の導入が主に回帰予測、およびロジスティック回帰のために使用される前に、主に分類タスクに使用。ロジスティック回帰はシグモイド関数と相まって、基づいて線形回帰です。
線形回帰モデルがされています
ここに画像を挿入説明
ように書くこともできます:
ここに画像を挿入説明
あなたが配布され、0-1の値を予測する必要がある場合は、機能を導入することができ、線形方程式は、Z G(Z)になりそうという点で、G(z)の値(0、 gの値(z)がゼロに近いとき)1との間に、サンプルがカテゴリーカテゴリー0と判定され、gの値(Z)が1に近い場合には、試料を分類カテゴリ1と判定され
、この関数はシグモイド関数です。(0,1)間のどの範囲、無限マイナス無限大のドメイン。
ここに画像を挿入説明
ここに画像を挿入説明
シグモイド関数の導入後、ロジスティック回帰モデルの一般的な形を得た。
ここに画像を挿入説明
こうして[0,1]、この場合、yの値は、1-yは、yは不可避付加です。我々はチャンス(オッズ)/(1-y)を得ることができます1-yのyの形状によってYを聞かせている場合は、カテゴリ1と0以外のカテゴリ確率として見ることができます。これは、ログ確率の線形回帰の値です。
ここに画像を挿入説明
Y(x)は数字の性質を取るチャンスのように見えますが、私たちは実際には0と1に近づいて、無限の結果をできるように、確率の対数を予測する線形回帰モデルの結果である、実際に私たちの線形回帰Zです。
線形回帰タスク:パラメータz、Z予測関数を解くことにより建設予測関数及び所望のデータができるだけ適合することができ、
ロジスティック回帰は、同様のコアのタスクである:予測関数Y(X)を適合することが可能であることができる溶液パラメータを構築するためにデータ、および前記予測関数に入力Yマトリックスにより、対応するタグ値を取得します。
ベイズ確率はカテゴリを出力するようにY(x)は、それが唯一の値(0,1)の間である、ではない、それが近似していることの確率。一般0.5の境界点として。
ここに画像を挿入説明

ロジスティック回帰機能喪失

ベルヌーイ分布オベイバイナリロジスティック回帰ラベル(すなわち、分布0-1)、我々は次のようにθが作業のモデルパラメータである、私は、特徴ベクトルxであるサンプルの場合を予測することができます
ここに画像を挿入説明
ときにサンプルI P1が1である場合はtrueカテゴリ1は、P0は、次に、予測結果が実際の値、情報の損失なしと一致して、0です。P1が0の場合、P0は、1であり、予測値と結果と実際のコントラスト、情報の完全な喪失。そして、その逆。
ここに画像を挿入説明
統合の2つの確率値は、以下の式(単一のサンプル)を得ることができる:
ここに画像を挿入説明
P1であれば、試料中の1(真タグiは、1、P0このとき、1 0のパワーで、P = P1であるときP1代表予測1の確率カテゴリ値)、モデルの効果と同様に、損失が小さく、P0(場合同様に、実際のタグライセンス0 iはサンプルであり、1である確率カテゴリ0のP0予測値を表す)、モデル損失が小さい、のような効果があります。
したがって、良いモデル適合を可能にするために、我々は求めているP 1の値を許可する。Pはの性質であるIサンプル特徴ベクトルxとパラメータθのからなる予測機能、すべての可能な確率yを予測します^こうして1は最大ですこれは、Pの最大値を得ることである私たちが必要とするものです。これは、「損失を最小限に抑える」問題のモデルに適合します、極端な値の問題を解決するための関数に変換しますこの導出処理は、実際には、Pによりパラメータθの値を最大化しようとする、すなわち、「最大尤度」導出プロセスである(したがってPの最大値ことは、パラメータのセットを見つけるために)
すべての可能な確率PのY ^がある:
ここに画像を挿入説明
P-対数:
ここに画像を挿入説明
これが私たちのクロスエントロピー関数です。より良い「損失」の意味を定義するために、我々は、パラメータとして関数の引数をlog§の負を取り、聞かせて、私たちは私たちの損失関数Jを得た、最小の問題のための最大の問題を変換したいです。(Jを求めて最小値に最大値を求めるP)
ここに画像を挿入説明
これは、ロジスティック回帰関数に基づいて、損失確率の値は、特性を派生返します。この機能では、限り、我々は最小を追求するように、我々はモデルがトレーニングデータ最高、最低の損失に影響をフィットさせることができます。
ここに画像を挿入説明

尤度関数と最尤推定

尤度関数
関数の場合:P(X |θ)は、2つの入力を有する:Xは、ある特定のデータを表し、θはモデルパラメータを表しています。

  • θが既知である場合、xは変数であり、関数が生起確率の数であり、異なるサンプル点x、のための説明確​​率関数(確率関数)と呼ばれている決定、Xを見つけます。
  • Xは、θは、既知判定された場合には変数であり、機能が異なるモデルパラメータを記述し、尤度関数(尤度関数)と呼ばれ、発生xの確率は、サンプル点の数です。θを探しています。
  • 確率関数と尤度関数は、二つの対向するプロセスです。

最尤推定法
一般的なコイン投げ、確率は、コイン0-1分布の分布は、正および負の発生確率を見つけることが知られています。可能性のためには、コインのための正および負の発生確率、コイン分布が要求に対応することが知られています。
知られている確率分布を介して取得する方法、それは最尤推定を使用しています。アイデアは持っている結果(発生の正と負の確率)を作るために必要なパラメータは、ほとんどが登場するだけでなく、より多くの私たちの通常の意識に沿ったものです。
例えば:私たちはコインを投げる場合は100回は、確率P(|流通コイン結果)として正のメモを記録し、正50と負50回表示されます。
P(コイン結果|分布)
= P(X1、X2、···、X100を|分布)
= P(X1 |分布)P(X2 |分布)... P(X100を|分布)結果#は、それぞれ硬貨は、独立して、仮定しましたA。
= P ^ 50(1-P )^ 50
ここで、Pは0.5としてもよい、0.3も短いで、とることができる、多数のP値があるが、値および結果のどのような我々はそれの最も一般的な意味では、コインと同様最も投票?我々は、結果を最大限にするために分配され、このパラメータに祈るは、LETのP値の最大化をサポートするように思われる答えはP = 0.5、今回のP ^ 50(1-P)である) ^ 50件の結果の最大値。導出によって、誘導体ので、それが0であると、Pの値を検索します。

ロジスティック回帰正則

正則化は、一般的パラダイムモデルパラメータベクトルを損失関数の後に達成され、L1およびL2の倍数を加えることにより、それぞれ、二つのオプションの正の正則化を有するL1とL2を用い、プロセスのモデルをオーバーフィット防止するために使用されます。
機能変更、パラメータの最適化の損失は、変更の値に基づいて、必然的損失関数を解決するために、我々は、モデルの適合度を調整するための方法を持っています。
ここに画像を挿入説明
前記
J損失関数の前で、Cは、
スーパー正則化パラメータの程度を制御するために使用される、小さなCは、より厳しいペナルティ関数モデルの、機能の喪失小さい損失で、より強力な正則化パラメータの効果は、意志徐々にますます小さく圧縮されました。
前記n個の方程式の総数であるが、また、式中のパラメータの総数は、
Jは、各パラメータを表しますここでは、私たちのためのパラメータベクトルθ、θは0 jは、1以上であることは通常正則に関与していない最初の引数は、我々の切片、です。
L1とL2正則化正則化は、過剰適合しながら制御することができるが、その効果は同じではありません。場合正規化強度が徐々に増加する(すなわち、徐々に小さくCとなる)、パラメータの値が徐々に小さくなるが、そのように可能な限り小さくL1正則化パラメータは、(機能選択のため)が0に圧縮され、L2正則化パラメータのみ、(オーバーフィット防止のための)0に取得していません(デフレクター、前回過線形回帰で述べられる引数を評価し、結論を引き出すことができる)
機能は、ロジスティック回帰を作品
、種別選択機能については、ロジスティック回帰を使用することを検討してPCAとSVD解釈可能ので、強力ではありません。
ロジスティック回帰は、私たちがいるので、データは、線形回帰よりも低くなっている必要が解決するために、最小二乗法を使用していないので、データの全体的な分布のロジスティック回帰と分散が要求していない、機能間の協力直線性を排除する必要はありません

ロジスティック回帰を解決する勾配降下

数学の目的は、ロジスティック回帰モデルは、パラメータ値は、Jが最小化された損失関数を解決することができますフィットのパラメータの最高値の最適化を可能に解決することです。ソリューションの減少を使用して勾配法を選択します。
定義勾配
ここに画像を挿入説明
ここに画像を挿入説明
勾配降下
勾配はベクトルであり、それはまた、サイズ方向を有します。その大きさは、ベクトルの大きさはまた、Dで示されるベクトルの大きさとして知られている、部分的誘導体で構成されています。
その方向は、幾何学的に言えば、損失関数Jの値は、最も急速に成長している方向です。長い勾配ベクトルの反対方向の座標移動のように、損失関数の値は、Jはまた、最小の損失関数を見つけるために、最も簡単、最速を減少させます
ロジスティック回帰関数の損失は以下の通りである:
ここに画像を挿入説明
引数、θ誘導体により得られる勾配ベクトルの座標点で表現θはj番目のグループの:
ここに画像を挿入説明
式、計算勾配Dに、θは一連の指定されました。
そして、θ勾配を使用して、全体のプロセスはますます小さくにおける損失関数であるように、次の反復θ+ 1を決定することができます。
ここに画像を挿入説明
長いステップの概念
ステップの長さの概念、三角形に似た角∠A、日焼けの値をとります。
ここに画像を挿入説明
ここに画像を挿入説明
反復勾配ベクトルによってパラメータは、ステップd *実装の大きさであるため、Jは、ステップサイズは機能の損失の速度を減少させるように調整することができるように、達成されるθを調整することによって低減されます。
方向に縮小損失関数長い工程(∠A大きな値)ステップ長が非常に短い場合、より大きなθの変化は、反対は、各変化θは非常に小さいです。

  • ステップは、あまりにも:損失の機能低下は非常に高速、反復回数が非常に少ない必要がありましたが、勾配降下法は、最高の価値を得ることができない、最低点の損失関数をスキップすることができます。
  • ステップサイズが小さすぎる機能は徐々に我々が必要とする最低点に近づいてますが、しかし、反復:
    速度が非常に遅いですが、それは繰り返しの多くを取ります。
    ここに画像を挿入説明
    反復の端部は、Jの最小値を取得し、最小値に対応するパラメータベクトルθを見つけることができ、ロジスティック回帰予測関数は、パラメータベクトルθに応じて設定することができます。

ロジスティック回帰データ処理

細分化データ

データ分類ラベルは、処理される必要があり、その後、傍受は、他の人がそう説明ワンホットエンコード処理を、行います。スコアカードのためのロジスティック回帰、分類は、プロセスデータWOEに使用することができます。
ここに画像を挿入説明

数値データ

最尤推定法の代わりに、特別な処置なしで最小二乗法の結果として。しかし、正規化を検討し、処理速度を速めることがあります。

リファレンス

https://zhuanlan.zhihu.com/p/26614750?utm_source=wechat_session&utm_medium=social&utm_oi=672213749885177856
https://www.bilibili.com/video/BV1vJ41187hk?from=search&seid=13147394097118063633
https://www.cnblogs.com/ lianyingteng / P / 7792693.html

公開された26元の記事 ウォン称賛29 ビュー10000 +

おすすめ

転載: blog.csdn.net/AvenueCyy/article/details/105079612