第二に、ロジスティック回帰アルゴリズムコーミング

ロジスティック回帰および線形回帰の間の差に関連した1

  • 連絡先
    ロジスティック回帰および線形回帰は、すべての線形回帰モデルを一般化しています
  • 違い
    、それが連続している場合により異なる変数に、つまり、多重線形回帰、二項分布は、ロジスティック回帰である場合。従属変数のロジスティック回帰は、バイナリとすることができるだけでなく、マルチ分類することができるが、2つの分類がより一般的であり、より簡単に説明します。だから、実際に最も一般的に使用されるバイナリロジスティック回帰です。
    線形回帰は、回帰の問題を解決するために使用された、ロジスティック回帰は、主分類問題を解決するために使用します

2、ロジスティック回帰原則

ロジスティック回帰

図3に示すように、ロジスティック回帰損失関数導出及び最適化

今では、確率に変換することができ、目的関数を記述するために、最尤推定(MLE)を利用することができるようになります。

L(θ)= P(y⃗ | X;θ)=πI= 1MP(YI | XI;θ)=πI= 1メートル(Hθ(XI))YI(1-Hθ(XI))1-YI
次MLEは古いルーチン、対数負の符号を解決し、その後Hθに置換された(x)は、コスト関数はLR、損失、すなわち数を得ることができます。

J(θ)=損失(Hθ (XI)、YI)= - 1ミリリットル(θ)= - 1mΣi= 1メートル(yiloghθ(XI)+(1-YI)ログ(1-Hθ(XI)))
sigmiodこの関数はHθ(XI)を代入し、代わりにLNログを使用して、あなたは上記の式はのように簡単に続けることができます。

J(I)= - 1mSi = 1メートル[yilnhth(XI)+(1-YI)LN(1-HTH(XI)] = - 1mSi = 1メートル[yiln11 + E-thTxi +(1-YI)LNE -thTxi1 + ethTxi] = - 1mSi = 1メートル[LN11 + ethTxi + yiln1e-thTxi] = 1mSi = 1メートル[-yithTxi + LN(1 + ethTxi)]

4、正則とモデル評価指標

正則化
正則は、回帰係数の形が(係数推定値)がゼロ、調整又は低減に向け拘束推定です。オーバーフィッティングのリスクを回避するために、他の言葉では、正則化は、モデルの複雑さと学習過程における不安定性の度合いを減らすことができます。
L1ノルム:L1ノルム正則化プロセスにおいては、特徴の小さな数を生成する傾向があり、および他の特徴は、0(疎な行列になるであろうL1パラメータ)です。したがって、L1だけでなく、正規の役割を再生することができ、それはまた、特徴選択として役立つことができます。
L2ノルム:ノルムL2を重み付けすることにより減衰し、さらに全体的な影響は、過学習の役割を防止する機能を低下させることを特徴としています。L2の利点は、安定かつ高速な解決ということです。
モデル評価指標
精度率、精度= TP /(TP + FP) 正および負の症例数が正常の/総数予測された、すなわち
精度、確度=(TP + TN) /(TP + FP + TN + FN) 容易かつ正確に正解率正の実数が正であり、予測通り率は、混乱することはできません。精度として理解。
リコール、リコール= TP /(TP + FN)が陽性サンプルで実際にどのくらいを示し、分類器は予測することができます。
F1スコア= P * / 2 R (P + R)、 P及びRは、リコールと精度、再現率と精度である場合に必要とされるが高い、F1スコアを測定するために使用することができます。
ROC曲線は、ロジスティック回帰の内部に、正および負の定義の例については、通常、正のクラスのための閾値よりも大きい閾値は、クラスは、閾値が負である未満で設定されています。私たちはこのしきい値を減らす場合は、より多くのサンプルが陽性のクラスの認識率を向上させ、ポジティブ・クラスとして識別されますが、それはまた、より多くの負のクラスは正のクラスと誤認されます。この現象は、ROCの導入を視覚的に表現するために。図では、横軸は、偽陽性率(FPR偽陽性率)で、縦軸は真陽性率(TPR実質金利)です。
AUC(エリアアンダーカーブ)が0.5未満の1よりも典型的に大きく、ROC曲線下面積(積分ROC)として定義されます。クラシファイア大きく、より良い性能のAUC値(面積)。

ロジスティック回帰の5、長所と短所

利点は
、簡単なフォームとモデルの解釈可能で非常に良いです。重鎖は、その後、最終結果の特性に影響が相対的に大きくなり、比較的高い値の特徴量から最終的な結果は、特徴の重みの異なる特性の影響を見ることができます。
2モデルは、機能が良いやって動作するかどうか、効果はそれほど悪くはありませんが、うまく動作します。
トレーニング速く3。分類、および計算関連の機能のほんの数だけ。
欠点
1つの精度は非常に高いではありません。フォームは、(線形モデルと非常によく似ている)非常に簡単ですので、実際のデータの分布をフィットすることは困難です。
2困難なアンバランスなデータの問題に対処します。例えば:私たちは、すべてのサンプルが損失関数の陽性予測値も比較的小さくできた入れ1:私たちは、このような万よりも、正と負のサンプルのような非常に不均一な問題のための正と負のサンプルがある場合。しかし、分類器として、正と負のサンプルを区別する能力は非常に良いではありません。
3非線形データは面倒です。他の方法を導入することなくロジスティック回帰、線形分離のみのデータ処理

図6は、試料は問題のバランスのとれた解決策ではありません

1)増加サンプルデータより少ない
機械学習は、全体のデータの分布を推定するために、既存のデータを使用することであり、したがって、より多くのデータをより頻繁に配信情報、および推定の良好な分布を得ることができます。でも、サブカテゴリのサンプルデータを追加し、サンプルデータのカテゴリを増やします。
リサンプリング2)
サブカテゴリの数、すなわち、オーバーサンプリング(オーバーサンプリングを高めるために、サンプリングデータサンプルのデータサンプルのサブクラスを、サンプルの数は、サンプルの数よりも大きいです)。すなわち、試料の部分のコピーが追加されています。
データサンプルのカテゴリの数は、データサンプルのクラスを、減少させるためにサンプリングされ、すなわちアンダーサンプリング(アンダーサンプリング、サンプルクラスプライムよりもサンプリング時間未満)。つまり、サンプルの一部を削除します。
3)異なる分類アルゴリズムの使用が
あるため、異なるタスクおよびデータのために使用される異なるアルゴリズムを比較するために異なるアルゴリズムを使用する必要があります。カテゴリツリーでは、多くの場合、うまく行っムラデータです。分類ツリーベースのパーティショニングのルール・クラス変数を作成するために使用し、それはさまざまなカテゴリの強制的に別のサンプルすることが可能です。

7. sklearnパラメータ

LogisticRegressionttps

おすすめ

転載: www.cnblogs.com/robindong/p/11329118.html