線形回帰+ロジスティック回帰+過剰適合+モデル評価ノート

線形回帰とは何ですか

線形:2つの変数間の関係は線形関数(xとy、すべての入力データとすべての出力結果など)です。グラフは線形と呼ばれる直線です。
回帰:予測値。連続値を出力

結果を予測します。既知のデータから未知の結果を取得します。例:住宅価格の予測、信用評価の判断、映画の興行収入の予測など。

特定のコンテンツ

ここに画像の説明を挿入
このような直線をシミュレートすることにより、新しい入力データxが入ってくると、この直線/関数(モデル)を介して、出力yを取得できます。

線形回帰の一般的なモデル:(関数)
はy = kxのようなもので、xは入力データ、yは出力結果、kは必要なパラメーターです。

ここでx0、x1、x2。これは、データのさまざまな特性です。
必要なのはシータの値だけです。これは私たちが必要とするパラメータであり、将来的に継続的に最適化する必要があるパラメータでもあります。

ここに画像の説明を挿入

パラメータ計算

x、yのセットを取り込んで、関数のパラメーターを取得します。予測関数を取得したら、関数のパラメーターを最適化する必要があります。損失関数を導入します。
ここに画像の説明を挿入
損失関数:モデルの予測値f(x)と真の値YYの間の不一致を測定するために使用されます。損失関数が小さいほど、モデルの効果は高くなります。
ここに画像の説明を挿入
二乗和の平均(予測値-真の値)

損失関数を小さくする方法-最急降下法を使用

最急降下法:
ここに画像の説明を挿入
最初は損失関数が比較的大きいですが、直線が連続的に変化する(モデルは継続的にトレーニングされる)と、損失関数はますます小さくなり、最小点である最小点に到達します。取得したい最終モデル。

この方法は、まとめて最急降下法と呼ばれます。モデルの連続トレーニングにより、損失関数の勾配は、最小点、点と線の間の距離が最小になるまで、ますます平坦になります。線はすべての点を通過します。これは、私たちが求めるモデル(関数)です。

類推すると、高次元線形回帰モデルは同じです。最急降下法を使用して、モデルを最適化し、モデルトレーニングのプロセスである極値点(この点は必要なパラメーターです)を見つけます。

ロジスティック回帰とは何ですか?(何が問題ですか)

ロジスティック回帰の名前には「回帰」が含まれていますが、これは実際には分類方法であり、主に2つの分類の問題に使用されます(つまり、出力は2つだけで、それぞれ2つのカテゴリを表します)。

ここに画像の説明を挿入
ロジスティック回帰は、線形回帰の出力yの外側に関数を設定することで、最終的な出力結果が0または1の分類になるようにします。線形回帰の出力値yは連続値であるためです。

この線形回帰の出力yに対して別の関数変換を実行して、g(y)になります。g(y)の値をある実区間のクラスA、別の実区間のクラスBなどとすると、分類モデルが得られます。

特定のコンテンツ(それを解決する方法は?)

予測関数を作成します(線形回帰は別の関数を設定します)

予測関数の値は[0、1]の間に出力されます。つまり、予測関数の出力は連続値です!たとえば、0.8です。次に、計算された予測値が0.5より大きく、0.8が0.5より大きい場合、予測値は1と見なされ、それ以外の場合、予測値は0である場合は、0.5などのしきい値を選択します。

シグモイド関数(ロジスティック関数)

ここに画像の説明を挿入

ここに画像の説明を挿入
ここに画像の説明を挿入

損失関数

ただし、ロジスティック回帰は連続的ではないため、自然線形回帰の損失関数を定義した経験は使用できません。ただし、最尤法を使用して損失関数を導出できます。

ここに画像の説明を挿入
ここに画像の説明を挿入

ロジスティック回帰の損失関数最適化手法

継続的な最適化を通じて、最適なパラメータシータを見つけます。
二項ロジスティック回帰の損失関数を最小化するために、多くの方法がありますが、最も一般的な方法は、勾配降下法、座標軸降下法、ニュートン法などです。ここで、最急降下法におけるθの各反復の式が導き出されます。代数法の導出と比較が面倒なため、損失関数を最適化するために行列法を使用することに慣れています。これは、行列法によって2値ロジスティック回帰の勾配を導出するプロセスです。

多変量分類

ロジスティック回帰モデルは、二項分類問題、つまりy = {0、1}を解くことができます。多変量分類問題を解くために使用できますか?答えはイエスです。多変量分類問題の場合、y = {0、1、2、。。。、n}、合計n+1クラス。解決策は、最初に問題をバイナリ分類問題に変換することです。つまり、y = 0 {y = 0} y = 0はカテゴリであり、y = {1、2、。。。、n}は別のカテゴリであり、次に、これら2つのクラスの確率を計算します。次に、y = 1を一方のクラスとし、y = {0、2、。。。、n}をもう一方のクラスとし、これら2つのクラスの確率を計算します。これから一般化すると、合計n + 1個の予測関数(分類器)が必要です。予測確率が最も高いカテゴリは、サンプルが属するカテゴリです。

3つのカテゴリーがあります。つまり、サンプルの場合、0カテゴリに属する​​確率と0に属さない確率を計算します。カテゴリ1に属する確率と1に属さない確率を計算します。カテゴリ2に属する確率と2に属さない確率を計算します。確率が最も高い最後のものは、サンプルが属するカテゴリです。

ロジスティック回帰の使用は何ですか?(どのような結果)

危険因子の検索:病気などの危険因子の検索;
予測:モデルに従って、さまざまな独立変数の下で特定の病気または特定の状況の確率を予測します;
識別:実際には予測と多少似ていますが、また、モデルに基づいて、特定の病気または特定の状況に属する人の確率を判断します。つまり、この人が特定の病気に属する可能性を確認します。

アドバンテージ

1)高速で、二項分類の問題に適しています
2)シンプルでわかりやすく、各特徴の重みを直接確認
できます3)モデルを簡単に更新して新しいデータを吸収できます

欠点

データとシナリオに適応する能力は限られており、決定木アルゴリズムほど適応可能ではありません

モデルの過剰適合

過剰適合の理由

  1. 機能が多すぎてデータが不足しています。
    回帰アルゴリズムの場合、機能が多いほどパラメーター(シータパラメーター)が多くなり、モデルはより複雑になります。
    対照的に、データの量が不十分な場合、過剰適合、つまりモデルとデータの複雑さにつながります。金額が一致しません。

  2. トレーニングセットとテストセットのデータ特性と分布は十分に類似していません。これの根本的な理由は、トレーニングセットが小さすぎることです。サンプル全体では、トレーニングセットとテストセットはごく一部しか占めていません。トレーニングセットとテストセットを保証することは困難です。全体的なデータ分布と同様に、トレーニングセットがテストセット分布と類似していることを確認することはより困難です。これにより、モデルはトレーニングの特性を完全に学習します。セットとオーバーフィットなので、モデルの一般化能力は間違いなく十分ではありません。

  3. オーバートレーニング。モデルがトレーニングセットでオーバートレーニングされると、モデルはこのデータセットのすべてのデータ機能を完全に学習します。これは、ノイズや外れ値の外れ値に過度に敏感であるため、過剰適合になります。

解決

過剰適合は、モデルが複雑すぎるためです。

解決策は、入力特徴の数を減らすか、より多くのトレーニングサンプルを取得することです。

正則化は、モデルの過剰適合の問題を解決するために使用される方法でもあります。
ここに画像の説明を挿入

正則化

ここに画像の説明を挿入
正則化の目的は、データ内のすべての特徴が予測値にわずかに寄与するようにすることであり、特定の重みにあまり偏らないようにすることです。各特徴には少しあり、そのようなモデルはうまく機能します。

正則化は、機能が多すぎる場合の過剰適合の問題を解決するために使用できます
正則化(多くの機能がある場合に有効)-すべての機能を保持しますが、シータのサイズを縮小します(L2正則化)
-一部の機能を削除します(L1正則化)

特定の操作:損失関数の後に正規項関数を追加します。
ここに画像の説明を挿入
ここに画像の説明を挿入

L1通常期

機能フィルタリングと同等

L1正則化により、重みが0に傾くようになり、ネットワーク内の重みが可能な限り0になります。これは、ネットワークの複雑さを軽減し、過剰適合を防ぐことと同じです。

これが、L1正則化がよりまばらな解を生成する理由です。ここでスパース性とは、最適値の一部のパラメーターが0であることを意味します。L1正則化のまばらな性質は、利用可能な特徴のサブセットから意味のある特徴を選択するための特徴選択メカニズムで広く使用されています。
ここに画像の説明を挿入

L2定期期

最急降下法の過程で、特徴がまばらである(すべての特徴が存在するが、各特徴はより少ない点、均一な点、特徴の減衰を有する)
と同等であり、重みは徐々に減少し、0になる傾向がありますが、0には等しくありません。これが重量の減少の原因です。

L2正則化には、重みパラメーターを小さくする効果がありますが、なぜ過剰適合を防ぐことができるのでしょうか。重みパラメーターが小さいということは、モデルの複雑さが低いことを意味するため、トレーニングデータへの適合は適切であり、トレーニングデータが過剰適合されることはなく、モデルの一般化能力が向上します。
ここに画像の説明を挿入

モデル評価

True Yangs:True Yangs —予測された陽性サンプル、および実際に陽性サンプル。
誤検知:誤検知-正として予測されますが、実際には負です。

True Yin:True Yin-負のサンプルとして予測され、実際には負のサンプルです。
False Negatives:False Negatives-予測されたネガティブサンプルですが、実際にはポジティブサンプルです。

精度:精度は予測用です。予測された陽性サンプルのうち、本当に陽性のサンプルはいくつありますか(予測されたすべての良いメロンのうち、本当に良いメロンはどのくらいの割合ですか?予測された患者のうち、実際の患者は何人ですか)。正確とは、予測の結果が正確であるかどうかを確認することを意味します。

リコール:リコールは元のサンプルに対するものです。すべての本当に良いメロンの中で、良いメロンの何パーセントが正しく予測されていますか?(すべての患者のうち、何パーセントの患者が私たちによって予測されました)
ここに画像の説明を挿入

ROC曲線+PR曲線

ROC曲線は、マルチクラス分類で使用しても意味がありません。二項分類でポジティブとネガティブが等しく重要である場合にのみ、ROC曲線評価を使用するのが適切です。

ROC曲線は、二項分類問題の評価指標として非常に一般的に使用されますただし、非常に偏ったデータセットでは、適合率-再現率(PR)曲線を使用すると、モデルのパフォーマンスを包括的に理解できます。


ROCは、y軸としてTPR(真陽性率)とx軸としてFPR(偽陽性率)の2つの指標に焦点を当てており、RoC曲線を直接取得します。
TPRは、肯定的な例がペアとして分類される可能性を表し、FPRは、否定的な例が誤って肯定的な例として分類される可能性がある確率を表します。ROC空間では、各ポイントの横軸はFPRで、縦軸はTPRです。これは、分類子のTP(真の率)とFP(偽陽性率)の間のトレードオフも示しています。

FPRとTPRの定義から、TPRが高く、FPRが小さいほど、モデルとアルゴリズムの効率が高くなることがわかります。

線が左上隅に近いほど、負の例よりも正の例が優先され、モデルの全体的なパフォーマンスが向上します。

つまり、描画されたRoC曲線が左上に近いほど、優れています。下の左の画像に示すように。幾何学的に言えば、RoC曲線の下の領域が大きいほど、モデルは優れていますそのため、RoC曲線の下の領域、つまりAUC(Area Under Curve)値を、アルゴリズムとモデルの品質の標準として使用することがあります。
ここに画像の説明を挿入
ここに画像の説明を挿入

PR曲線:
PR曲線はしきい値に対応します。50%などの適切なしきい値を選択することにより、サンプルが分割され、50%を超える確率は正の例と見なされ、50%未満の確率は負の例と見なされ、対応する精度率と再現率が計算されます。レート。

おすすめ

転載: blog.csdn.net/weixin_45942265/article/details/119419236