データマイニング:モデル評価

データマイニング:モデル評価

一般的にゲームで、我々は(分類)問題のリターンが表示されます、別のゲームは異なる評価を持っています。我々は悪い結果、離れてポールを取得する傾向があるので、我々は、ゲームの客観的な評価について、平均二乗誤差によって回帰を覚えておくだけではなく、モデルを訓練するとき、ないように注意します。

まず、なぜそこに測定するために、非常に多くの指標であります

そのため特定のシーンで、ゲームは異なるバイアスを持っています。例えば、同じ質問、M1とM2分類精度率は同じではありません、そして、私たちは、M1はもう少し集中した場合に最適化する際に、そして、それはM1の最適化に集中する必要があり、特定の要件を見てする必要があります。
ここに画像を挿入説明

いくつかの一般的な評価。
ここに画像を挿入説明
ここでは他の人への参照を作るので、私は良い要約を作ることができない知識の限られた量のために記事を評価するために、比較的良好なモデルで記述されたオンラインで公開。後はより多くのように、このおなじみの後に、サプリメントを行います。
評価方法及び機械はのモデル学習
(機械学習モデルの評価)を評価モデルを機械学習を-主要な概念と落とし穴
モデルに最も完全の関連する評価概要機械学習
、一般的に評価するための指標を使用したモデル
さらには、この記事からですカイカイの機械学習

第二に、回帰評価指標

見つけるために-クラスとタイプ分類アルゴリズムは、法律に実際に似て評価するための回帰モデルラベルの実際の値と予測値の違いを回帰クラスアルゴリズム、我々はリターンの効果を見るために2つの異なる角度を持っている:
我々は予測するかどうかを、まず正しい値を
第二に、我々はに収まる行うのに十分な情報。
これら二つの角度は異なる評価指標モデルに相当します。

いいえ、正しい値を予測 MSEとMAEを:

正方形のRSS残差の和、予測値との間の差であると真の値が第一の観点から、返品の有効性を評価することである、それは私たちのRSS損失関数の両方で、また私達の回帰モデル評価指標クラスモデルの一つであります。ただし、RSSは致命的な欠陥を持っている:それは無制限です(無限に大きくすることができ、より多くのサンプル、二乗以上の残留チェックサム)。
このような状況に対処するには、sklearn使用RSS変異体、平均二乗誤差MSE(平均二乗誤差)は、当社の予測と値の真の値との差を測定する(影響を与える要因を排除したサンプルモデル評価ので。)得られた平均誤差を有します。これは、ラベルの範囲内にあり、この評価のための、より信頼性の高い基盤を得るために、一緒に比較することができます。各サンプルの平均誤差、平均差はどのように多く見るために比較して)sklearnその中で、私たちは、この評価指標を呼び出すための2つの方法があり、

  1. モデル評価モジュールクラスmean_squared_errorで特定のメトリックを使用してSklearn、
  2. 交差検定は、平均二乗誤差の内部に設定するために使用されるクラスcross_val_scoreスコアリングパラメータを用いて呼び出されます。
    ここに画像を挿入説明

1.平均二乗誤差が負である
(REG、X、Y、CV = 10、=得点「neg_mean_squared_error」)cross_val_score
誤差の平均二乗誤差自体、損失など。これは、sklearn損失モデル(損失)に分かれています。sklearn内のすべての負の番号のうち、従って平均二乗誤差も負の数として表示される損失は、表されています。実際の平均二乗誤差MSEの値が、実際には、neg_mean_squared_errorデジタル負の記号を削除します。
メトリックは、正の平均二乗誤差で取得することができます。

MAE:平均絶対誤差、平均絶対誤差で
ここに画像を挿入説明
表さ平均二乗誤差のような概念と一致しているが、外部我々はL1ノルム(絶対値)を使用し、真のラベルの予測値との差。実際の使用、MSEとMAEは罰金を使用することを選択しました。MSEよりも外れ値の影響を受けにくいMAEは、堅牢である
sklearn.metricsはMAEを呼び出すためにmean_absolute_errorをインポートするから、我々はコマンドを使用し、sklearnでそれらを。
交差検定は、MAEクロスバリデーションに呼び出すために、スコア=「neg_mean_absolute_error」で使用することができます。

かどうかは、十分な情報に合う
データだけを予測するために正確では十分ではありませんか探求し、戻り値の型アルゴリズムに。データ自体の数値サイズに加えて、我々はまた、我々のモデルは、このようなデータ配信などのデータの「法則」、単調性、などをキャプチャすることができますことを願って、この情報をキャプチャするとMSEを測定するために使用することはできませんか。
この図は、MSE測定場合、平均二乗誤差は非常に小さくなりますが、この図は、それがフィットが適切ではないことは明らかである、トレンドを変更データに適合しません。こうして光は、回帰データMSEから評価することができません。
ここに画像を挿入説明

私たちは、データ上の情報の量を測定するための分散を使用しています。データに代わって情報量も大きく、分散が大きいほど、この情報だけではなくの価値の大きさを含むが、また、我々は、キャプチャモデルに期待していることこれらの法律が含まれている場合。データをキャプチャするためにモデル上での情報の量を測定するために、私たちは私たちを助けるためにR ^ 2の定義:
ここに画像を挿入説明
分子がMSEであり、分母はそう出について、原因関連する関連サンプルの逆数に分散です。分散が
実質的にyの値の差と平均サンプル、大きい差である、情報のより多くの価値を行います。
R ^ 2では、分子は、真の値の差分値と予測値(ある相違度の尺度私たちである)、モデルはに情報量を捕捉しない分母が情報の実際の量は、ラベルによって運ばれるので、対策、ある1 -我々のモデルは、ラベルによって運ばれる情報の実際の量に情報量の比率をキャプチャしていないので、R ^ 2 1に近いほど、より良いです。
sklearnは、コールに3通りの方法で使用することができ、

  1. R2_scoreメトリック、入力された予測値と真値スコアから直接導入されます。
  2. 電話をかけるために、線形回帰線形回帰からスコアに直接インタフェースです。(すべての回帰モデルは、このインタフェースを持っています)
  3. 相互検証では、コールへの「R2」と入力します。
from sklearn.metrics import r2_score
r2_score(yhat,Ytest)
r2 = reg.score(Xtest,Ytest)
r2

しかし、これら2つの結果が同じではありません。

同一の評価指標の2異なる結果

この判断の== B場合と==事実は全く概念ですので、我々は、評価モデルを実施する場合、Bからならば、我々は比較を行った分類モデルの私達の評価で我々は、このピットに踏まれていません。
しかし、R2、R2及び精度又は精度の分類モデルの明白な指標を計算するための式を見ては同じではない、R2は、予測値と実際の値との差の大きな値に関与する計算は、予測値は、分子に存在する必要があり、真の値分母は、我々はモデルの評価指標metrcisモジュールを呼び出すので、彼は、インデックスのパラメータをチェックするために知っている必要があり、どのような真の価値があることは入力するか、予測値を入力するために私たちを必要とします。場合、パラメータR ^ 2は、入力は、分子予測値[]または[実際の値]分母、入力の異なる順序が、結果が異なることに留意すべきです。

3.マイナス^ 2 R
TSS = ESS + RSSは常に真ではありません。
ここに画像を挿入説明
ここに画像を挿入説明
2()/ TSS、式(内側)についての線形回帰の仮定について参照する必要0に等しいです。

  1. 従属変数と独立変数間の線形関係を持っているので、
  2. 繰り返しサンプリングでは、引数の値をxと仮定すると、すなわち非ランダム、固定されています。
  3. 誤差項は確率変数が望ましい0です。
  4. すべてのxについて、誤差項の分散が同じです
  5. 誤差項は、正規分布に従う。
    ここでの三つの条件が成立しない、式(IN)がゼロではないであろう。
    ここに画像を挿入説明

ここに画像を挿入説明
R ^ 2が負、プロセスの最初の外観とプロセスが正しいモデリングデータである場合、あなたは多分あなたのモデリングプロセスは、バグの存在があり、データそのものを傷つけている可能性があります。統合の回帰モデルは、数が不足しているかどうかの、あなたの弱い評価をチェックすると、ランダムな森林は昇圧ツリーモデルは時間木の夫婦のみで、負の傾向があります。あなたは、コードのすべてをチェックした場合は、お使いの事前決定は問題ありませんが、あなたのR ^ 2は、線形回帰モデルは、あなたのデータに適合しないことを証明している、まだ否定的です。

あります

第三に、分類評価指標

サンプルのようないくつかのケースのために、正確に分類問題を測定する際に適切に捕捉することができません。(例えば、80正と20負のは、予測陽性であれば、80%の正解率があるでしょうが、これは、クレジットカード詐欺のために、無意味であるというように、我々はより少数のサンプルを懸念されているため、正確率することはできません)を測定するために、私たちは探しする傾向にある少数クラスキャプチャする機能費用を支払うために、間違った支配階級の後にバランスの大半をモデルの場合には少数のクラスを捕獲しようとすることができる場合は、大半のクラスは、正しい決定をしようとすることができ、その後、このモデルは非常に良いアップです:性能を評価するために、我々は新しいモデルの評価指標を導入します混同行列とROC曲線を

混乱マトリックス
混同行列はサンプル不均衡非常に便利なシステムバイナリ分類問題の多次元尺度です。混同マトリックスでは、少数の正例、負の一例であると考えられてクラスの大半を検討します。(真値が常にEDITORIALう)
ここに画像を挿入説明
分子指標が1に近い可能のようであるように我々は、これらの指標の範囲を評価するための六つの異なる評価指標モデルは、11と00で、[0,1]の間であるましたインジケータ分子として01及び10は、できるだけ0に近いです。

3.1 アートクラスは、いくつかを捕獲しました:精密、リコールやF1スコア

全体的な効果モデル:精度
精度精度は、全てが正しくすべてのサンプルは、より良い、より近い1に、一般的に、全試料で割った予測することです。
ここに画像を挿入説明

精度、リコールやF1スコア:芸術は、いくつかのクラスをキャッチ

また、精度として知られている精度精度は、表し、すべてのサンプルは、我々は少数クラス、本当の少数株主持分の割合であると予測しました
ここに画像を挿入説明
精度が低いほど、それは我々が(あまり多数のクラスを傷つけることを意味し、私たちの精度が低い場合ので、それがたくさんあることを意味し、少数クラスのための私達のサンプルの予測では、クラスが大多数と少数派の両方を持っていますクラスのほとんどは、我々は、クラスのコストの大半を誤って判断した場合、我々はクラスの大部分は、その後、我々は、高精度の追求に、大多数のクラスに害を与えてはならない、正しい判決を受けたという希望をたくさん持っていることを、比較的高い、少数派になった私たちのフレンドリーな火災になるはずでした)。大多数のクラスの当社の判断の下精度はもっと間違っていることでしょう。私たちの目標は、それはいくつかのクラスをキャプチャするために必要なものをやるのであればもちろん、我々は正確さを気にしないでください。ほとんどのクラスは判断が正確さを選択し、正しいかどうかを懸念しています。

また、感度(感度)として知られているリコールリコール、実質金利は、リコールは
1のすべての真のサンプル、正しくごシェアによって予測されたサンプルの割合を表しています。
ここに画像を挿入説明
唯一の関連するクラスの数が少ないです高い再現率、我々はさらにいくつかのクラス(キャプチャしようという意味では、すべてのカテゴリが真の少数クラスであることを前提に、これを高い再現率ので、真の少数クラスを表し、私たちはの割合を予測しますさらにいくつかのクラスをキャプチャするために、あること、大きい方)、再現率が低いほど、我々は少数クラスをキャプチャするのに十分なを持っていません。

再現率と精度はトレードオフである(非常にしばしば重複一緒に多数のクラスとの少数の間に、少数のクラスを捕捉しながら、最もフレンドリーな火災クラスの一部であろう)、両者のバランスを表しますキャプチャ要件の少数クラスとのバランスに多数のクラスのニーズを傷つけないようにしてみてください。高いコストはまだ間のビジネスの観点から測定する必要がある、少数クラスの高コストをキャプチャすることはできません、クラスの大部分を傷つけています。

アカウントに精度と再現率を取るために、私たちはF1measureと呼ばれる2つを、均衡包括的指標としての2点の調和平均を作成しました。二つの数は、それらの比較的少数で二つの数の平均近くに傾向がある間、我々は可能な限り最高のF1対策を追求して、我々は精度と再現率が高い保証することができ、調整します。[0,1]分布とF1尺度、1に近いほどよいです。
ここに画像を挿入説明

3.2 ほとんどの誤った支配階級の考慮事項:特異性と偽陽性率

**特異性(特異性)** 0がすべての実サンプルを表し比が0を占めていたとして、サンプルが正しく予測されました。
ここに画像を挿入説明

特異性は、右のほとんどのモデルベースの決意の能力を測定し、1 -特異大半のクラスは、判断力のモデル誤差で、この機能は以下のように計算され、呼び出された偽陽性率(偽陽性率)(偽陽性率:大多数のクラスの数が間違って精度を宣告されました:右に刑を宣告されたどのように多くの少数派)

ここに画像を挿入説明

混同マトリックス中sklearnは6つのモデル評価指標から得られます:
ここに画像を挿入説明

3.3 ROC曲線とその関連する問題

私たちの6つの評価指標では、最も重要なことは、再現率、そして正確率と偽陽性率のFPRです。

偽陽性率は非常に重要なアプリケーションを持っている:私たちは高いリコール時間の追求では、精度はより少数のクラスが出てキャプチャされるように、クラスは判断の誤りであることがより多数存在することを、断るが、我々ます非常に好奇心、リコールの緩やかな増加と、モデルはほとんど間違ってそれを変更する方法を判断する能力のようになりますか?私たちは、私は、理解したいすべての判断が正しい少数クラス、多くの過半数クラスは判断の誤りになることがあります偽陽性率は、(ほとんどのカテゴリーで、大多数のクラスの数が間違っを言い渡された)ちょうど私達は、これを変更する能力を測定するのに役立ちます。また、より多くの、多くのクラスを傷つけることながら、傷害の手段より多数のクラスがエラーを言い渡されたどのように多くの(リコール大きい、より多くの少数派が捕獲さは、FPRは、大多数のクラスの尺度でありますFPRは速くリコールよりも増加した場合、表示されていること裁判官;リコールリコールが速くFPRの増加よりも増加した場合FPRも増加するので、クラスのほとんどが少数クラスのコストは大きくない決定を証明する、エラーを言い渡されましたより数多くのクラスを犠牲にして少数派)

相対的な、精密割合は判決のこれらのエラーのほとんどのすべてのカテゴリーで過半数クラスの大半を占めているかどうかを判断することができない、それも考慮にリコールを持ち上げる過程における全体的なモデルの精度を取ることができませんしたがって、我々は使用することができますリコールとFPR代わりにリコールと精度のバランスを、私たちは聞かせて、間のバランスを私たちのROC曲線の尺度であるクラスの数が少ない、傷害の大半クラスの状況でどのように変化し、中に可能な限りのキャプチャにモデルを測定しますバランス

ROC曲線、受信者動作特性曲線の完全な名前。これは、FPRに対する異なる閾値での偽陽性率を横軸、しきい値曲線リコール縦軸を思い出します

確率閾値と(確率)(閾値)
確率:サンプル点は、クラス確率について決定された
閾値:番号を手動で設定、確率が閾値以上である場合、それは特定のカテゴリに設定されます。

確率閾値を理解するために、状況は我々が時間のロジスティック回帰分類と関係の状況を思い出す可能性が最も高いです。各カテゴリラベルの下に各サンプル尤度(クラス確率)の生成インタフェースロジスティック回帰predict_proba。ラベルに対応するカテゴリの下でサンプルの尤度が0.5より大きい場合、これらの尤度、所定の天然のロジスティック回帰のために、このサンプルは、このカテゴリに分けました。このプロセスでは、閾値0.5と呼ばれています。
常にしきい値を調整することにより、あなたは別のリコールとFPRに到達することができます。一般的に言えば、しきい値はリコールを強化するために低下させることができます。

しきい値を上昇させない注意は、しかし、実際のデータの分布に基づいて決定する必要があるすべて、リコールを増減することができるようになります。そして、しきい値の影響を反映するために、それは最初のいくつかのクラスに予測する確率的分類器を取得する必要があります。この世代は、ロジスティック回帰する可能性アルゴリズムを生まれ、そのナイーブベイズ確率の計算におけるアルゴリズムさのために、自然の確率は非常に簡単に取得することですが、そのようなSVM、その分類や確率などの決定木のようないくつかの他の分類アルゴリズム、用関係ありません。

ツリーのリーフノードがありますが、リーフノードは、異なるクラスのサンプルが含まれていてもよいです。試料はリーフノードに含まれていると仮定し、ノード10は、6つの1、4 0そのうちのサンプルが含まれ、n個のリーフノードのこのタイプの発生確率1は、このカテゴリでは60%である0リーフノードの発生確率は40%です。リーフノード内のすべてのサンプルについては、ノード上の1と0の発生確率は、このサンプルは、1と0の確率に対応取られ、あなたは自分自身をテストするために行くことができます。決定木は、非常に深い描画することができますので、しかし、問題について考え深い十分に決定木の各リーフノード上のラベルの複数のカテゴリが含まれない可能性があり、葉は、単一の標識であり得ます、リーフノードの純度が0ではないとすると、この時点で、各試料について、それらの対応する「確率」は0又は1です。今回は、私たちのリコールとFPRを調整するためのしきい値を調整することはできません
私たちはその需要確率を持っているのであれば、我々はロジスティック回帰やナイーブベイズの追求を優先させて頂きます。しかし、実際には、SVMは、確率を生成することができます。

SVM確率予測:重要なパラメータの確率、インターフェースpredict_probaと
decision_function

意思決定は、近い点境界に、より特定のタイプの確率、及び遠い境界から、より大きな判別クラスの確率を決定ぼやけ。決定境界点からのサンプルの可能性を測定するためのカテゴリに属します。Decision_functionインタフェース値は、我々が返され、それゆえの信頼(信頼)SVMであると考えられてSVC重要なパラメータの確率。
ここに画像を挿入説明

ROC曲線の設立の基本的な目的は、私たちは、クラスにいくつかのモデルをキャプチャするために可能な限り、クラスの大半について何が変わる傷害を測定することができそうという、リコールとFPRの間のバランスを見つけることです
ROC曲線が凹状である場合には、正とライン上のクラスへの負の調整。クローサーライン、悪い方の真ん中に。
ここに画像を挿入説明
横軸は、ROC曲線が表すように、FPRは、判断能力の縦リコールの大多数のクラスモデル誤差を代表して、モデルがして、少数のクラスをキャプチャする機能を表しているリコールのは、FPRを増やす方法を増やします。
私たちは、私たちができることをどのショー、リコールの継続的な改善と、FPRが遅く、より良い増やすことを願って
効率的にいくつかのクラスを捕獲しようとするが、多くはない判決の大半のクラス・エラーになります
だから、我々は画像、見たい縦急速な上昇を、画像の左上部の円弧で横成長が遅く、このモデルは、少数派の能力は良いキャプチャを持っている、非常に良いですが効果を表しています。
曲線だけでなく、信頼性が判断され、必要となる値を左上隅に近いカーブの程度を測定します。AUC領域近い左上隅のROC曲線下面積、大きな面積を表し、ROC曲線、より良好なモデルを表します。私たちは私たちを助けるためにsklearnを使用してAUCは、より複雑なの面積を算出しました。

ROC曲線とAUCは地域のsklearnです
sklearnに、私たちは私たちがFPRのROC曲線、クラスsklearn.metrics.roc_curveリコール縦と対応する閾値横軸偽陽性を計算役立っています。同時に、私たちは私たちのAUCエリアsklearn.metrics.roc_auc_score計算クラスを支援する必要があります。

場合は、実際には、自信があれば、力を使用することの確率が、それはまた、私たちのROC曲線を完了することができ、確率モデルを得ることはできません。

最適なしきい値を見つけるために、ROC曲線を使用すると
抗のROC曲線は、
キャプチャ少数派へのモデルの能力が強くなったときに、あるときにリコールどのFPRの変化を増やす必要があり、それはほとんどの傷害の状況のように深刻であるだろう。私たちの願いは、キャプチャモデルの少数クラスの能力が強くなったときに、リコールが増加すると、ある多数のクラスを、傷つけないようにしようということで、できるだけFPR小型のサイズ。私たちが最も少しを見つけたい、実際には、それが最大のポイントリコールとFPRギャップです。またヨーデン指標として知られている。この点、。

ここに画像を挿入説明

第四に、クラスタリング評価指標

クラスタリングアルゴリズムは、単純な問題ではない、モデル評価の分類と回帰モデルとは異なります。
分類では、(ラベル)は、出力の直接の結果である、と我々は予測精度、混同行列、ROC曲線などの指標が評価する上でを使用して分類結果は、正しいか間違っていますが、いずれにせよ評価において、あります「モデル正しい答えを見つける」機能。
データに合わせて期限の見返りに、我々は、モデルの適合度を測定するための損失関数があり、SSE平均二乗誤差を持っています。しかし、これらの対策は、クラスタリングで使用することはできません。

4.1知られている実際のラベル

ここに画像を挿入説明
ここに画像を挿入説明

4.2実際の未知のラベル

クラスタリングは、クラスタリングの効果を評価するために、クラスタ間の密なクラスター(クラスター小さな差)及び分散度の程度(クラスタ外大きな差)の評価に完全に依存しています。どのアウトライン要因最も一般的に使用されるクラスタリングアルゴリズムの評価です。よりよいクラスタリング、クラスタリング効果が1に近いとすることができることを示し、0よりも大きい場合、範囲(-1,1)におけるS(Bより良いA.より良い、より小さなより大きいたいです)。これら2つのクラスタ間に差がないことを示す、0に近い方が、クラスタに組み合わせることができます。
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
さらに、カーリン利用可能なガウス-等指数(デイビス- Bouldin)及び偶発マトリックス(コンティンジェンシーマトリクス)、ボールディング-サハラベースのインデックス、デイビスを(Calinski-Harabaz指数は、CHI、標準よりも呼ばれる分散とも呼ばれます) 。
それはより速く、行列演算であるため、前記sklearn.metrics.calinski_harabaz_score(X、y_pred)より一般的に使用されます。
彼らは通常、私たちの最高のn_clustersを選択する地図データ配信およびクラスタリング後のアウトライン係数分布マップを描きます。カイカイを学ぶ上でマシンを参照してください。
あなたはポリうちの各クラスの影響を分析していない場合、最高のプロファイルの値が最良のクラスタリング係数であると言うことは困難であるため、学習曲線は、クラスタ内の問題のアウトライン要因を解決することはできません。

公開された26元の記事 ウォン称賛29 ビュー10000 +

おすすめ

転載: blog.csdn.net/AvenueCyy/article/details/104552621