AUC、ROC私は最も完全な説明を参照してください

 

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/u013385925/article/details/80385873

インタビュー、自然とAUC計算規則の単語の説明:

AUC:正例、陰性例では、負の値の予測確率が大きいよりも正の確率値の尤度を予測します。

だから、定義によって:私たちの最も直感的なAUCを計算するには2つの方法があります。

1:ROC曲線は、ROC曲線下面積は、AUCの値であり、プロット

2:合計(M + N)個のサンプル、N-Mサンプル、n個の陰性サンプルのM * N個のサンプルのペアの合計正サンプルが陽性サンプルの確率値が負のサンプルは正の予測よりも大きい予測カウントを仮定AUCの値は、ある確率サンプル値1、累積カウントと呼ばれ、その後、(M×n個)で割りました

PS:Baiduの百科事典、正のランダムに選択されたサンプルおよび陰性サンプル、算出された値に基づいて、現在の分類アルゴリズムは、この正のサンプルは、確率サンプルの前に来たスコア負のAUCの値です。ここでの値は、確率の陽性予測値のスコアであり、上面が正の予測で表される陽性試料は陰性サンプルの確率は正の確率値を予測よりも大きくなっています

、ROC曲線

1、ROC曲線:受信者動作特性(receiveroperating特性)は、曲線ROC上の各点は、同じ刺激信号の感度を反映しています。

横軸:負正クラスレート(偽ポジティブ率FPR)特異性、負分割例えば、全ての陰性症例の割合の全ての実施形態;(1-特異性)

縦軸:実際の(真のポジティブ率TPR)感度の種類、感度(n型カバレッジ)

2バイナリ分類のため、陽性(ポジティブ)、あるいはネガ型(負)へのクラスのインスタンス。しかし、実際の分類は、4例が発生します。

(1)クラスのインスタンスが正であると、実際のクラスであるポジ型であることが予測される場合(真のポジティブTP)

(2)クラスのインスタンスが肯定的である場合が、予測されるネガ型、すなわち、偽陰性のクラス(偽陰性FN)

(3)クラスのインスタンスが負であるが、n型になると予測される場合、すなわち偽陽性クラス(偽ポジティブFP)

(4)クラスのインスタンスが負であるが、ネガ型が予測される場合、すなわち真陰性クラス(真陰性TN)

TP:肯定の正しい数

FN:不作為は、見つかったマッチのない正確な数がありません

FP:falseの場合、一致するものが間違っていません

拒否する権利の非マッチングの数:TN

以下の分割表、nはクラスを表し、クラス0は負を表します。

テーブルの上に横、縦軸式を描くことができます。

(1)真のクラスレートは、(真のポジティブ率)TPR:TP /(TP + FN)、正のクラス分類の代表は、正の例は、すべての正のインスタンスの実際の比率を予測しました。感度

(2)n型陰性率(偽ポジティブ率)FPR:FP /(FP + TN)、nは分類器の予測クラスは、すべての負の負例インスタンスの実際の割合を表します。1-特異

(3)クラス真陰性率(真陰性率)TNRは:TN /(FP + TN)は、負のクラスの実際の負例には、予測された分類は全て負のインスタンスの割合であるTNR = 1-FPRを表します。特異

次いで、0.6より大きいまたはポジ型0.6、ネガ型のために0.6未満の確率に等しい閾値を設定することによって、クラスの各インスタンスに対して正の確率を与えるロジスティック回帰分類器を、仮定。平面内の座標点対応を与えるために、(FPR、TPR)のセットに対応する計算することができます。より正の例はクラスに分割されて漸減閾値と、これらのクラスはまた、負の実際の例でn型ドープされ、即ち、同時にTPR及びFPRを増加させることができます。場合座標点(0,0)に対応する最大閾値、閾値最小、対応する座標点(1,1)。

同図に記載されているように、(A)の実線は、各点のROC曲線の閾値に相当します。

 

横軸FPR:1-TNR、1-特異度、FPR大きいほど、正クラス予測負の実クラス。

縦TPR:感度(ポジティブクラスカバレッジ)、大規模TPR、より積極クラス予測実際に正のクラス。

ターゲット上:TPR = 1、FPR = 0、すなわち、図形を(0,1)点、そう近いROC曲線(0,1)点、より良い対角45度、感度、特異大きな効果を相殺良いです。

2つのROC曲線を描く方法

一連のサンプルは、以下、正の確率そのクラスに分け、次いでサイズに応じてソートされると仮定するようになった、図一例である。全部で20個の試験サンプルは、「クラス」の欄には、各ラベルの真の試験試料を示す(pは示し陽性サンプル、nは負のサンプルを表す)、「スコア」とは、各試験サンプルが陽性サンプルの確率を属していることを示しています。

 

次に、我々は、高、低に、閾値、閾値、試験サンプルの確率が陽性サンプルを属している場合よりも大きいかまたはこのしきい値に等しいような「スコア」の値を入れ、我々はそれがそうでなければ、負のサンプル陽性サンプルであると思います。他方は、例えば、図次いで、サンプルを、それらの値を「スコア」を、4つのサンプル、陽性であると考えられる0.6である「スコア」サンプル、4は、より大きい又は0.6に等しいです。サンプルは陰性サンプルと考えられています。異なるしきい値を選択するたびに、我々はFPRとTPR、ROC曲線上の点、すなわちのセットを取得することができます。このように、我々は、TPR及びFPR値の20基の合計を取得し、以下に示すように、それらは、描かれたROC曲線の結果です。

 

  

 

0.1と1の間の曲線下のROC面積:AUC(曲線下面積)。AUC値は、分類器の品質を評価する視覚的にわかるように、より良い値。

最初のAUC値は、正と負のサンプルのランダムなサンプルを選ぶとき、陽性サンプルの確率を算出した電流値スコアに基づいて分類アルゴリズムは、サンプルの前に来て、確率値である負のAUC値、大きなAUC値、電流が​​あります分類アルゴリズムは、先にサンプルの負の陽性サンプルである可能性が高い、分類することが可能です。

二、AUCを計算します  

 1.  最直观的,根据AUC这个名称,我们知道,计算出ROC曲线下面的面积,就是AUC的值。事实上,这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此,计算的AUC也就是这些阶梯 下面的面积之和。这样,我们先把score排序(假设score越大,此样本属于正类的概率越大),然后一边扫描就可以得到我们想要的AUC。但是,这么 做有个缺点,就是当多个测试样本的score相等的时候,我们调整一下阈值,得到的不是曲线一个阶梯往上或者往右的延展,而是斜着向上形成一个梯形。此 时,我们就需要计算这个梯形的面积。由此,我们可以看到,用这种方法计算AUC实际上是比较麻烦的。 

   2.非常に興味深い特性は、AUCであり、それとウィルコクソン-マン-ウィットニーのテストは同等です。この同値関係の証明は、次のポストにとどまるために与えられています。そしてウィルコクソン・マン-ウィットニーテストは、任意の正のサンプルと陰性クラスベースのサンプルについての試験は、陽性クラスサンプルがサンプルベースの負のスコアの確率よりもはるかに大きい有するスコアです。この定義では、我々は別のAUC計算のアプローチを取得:この確率を取得します。我々は、多くの場合、確率的なアプローチは、限られたサンプルの周波数を推定することである得ることを知っています。この見積もりのサンプルサイズの拡大に伴い、徐々に真の値に近づいている間。この上記の方法は、サンプルの数、同様のより正確な計算されたAUC、また積分時間を算出し、セル間の細かい分裂より、より正確な計算は、同じ理由です。具体的には、どのような正および負のサンプルにM×Nの全て(Mクラスサンプルの正の数であり、Nはサンプルネガ型の数である)をカウントするために、サンプルがグループ内の正のスコアを有していること、負のサンプル数は、スコアよりも大きいです。スコアは、時間ビン及び0.5に従って計算し、正および負のサンプルに等しい場合。そして、MNで割った値。この複雑さを達成する方法は、O(N ^ 2)です。Nはサンプルの数である(すなわち、M + N = N) 
   3実際に第三の方法及び第二方法は同じであるが、複雑さが低減されます。次にようにランクnのサンプルに対応する最大スコア、n-1個の対応するサンプルの第二の最大ランクスコアを許可し、また、スコアの降順で最初の一種です。次いで、全ての正のクラス順位は、サンプル、マイナスM-1種の場合の組み合わせで2つの正のサンプルに添加します。得られた試料は全て陽性のクラススコアのサンプルはどのように多くの負クラスサンプルのスコアよりも大きくなっています。そして、M×Nで割りました その 

 

      式の説明:

        1、为了求的组合中正样本的score值大于负样本,如果所有的正样本score值都是大于负样本的,那么第一位与任意的进行组合score值都要大,我们取它的rank值为n,但是n-1中有M-1是正样例和正样例的组合这种是不在统计范围内的(为计算方便我们取n组,相应的不符合的有M个),所以要减掉,那么同理排在第二位的n-1,会有M-1个是不满足的,依次类推,故得到后面的公式M*(M+1)/2,我们可以验证在正样本score都大于负样本的假设下,AUC的值为1

      2、根据上面的解释,不难得出,rank的值代表的是能够产生score前大后小的这样的组合数,但是这里包含了(正,正)的情况,所以要减去这样的组(即排在它后面正例的个数),即可得到上面的公式

      另外,特别需要注意的是,再存在score相等的情况时,对相等score的样本,需要 赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间,都需要这样处理)。具体操作就是再把所有这些score相等的样本 的rank取平均。然后再使用上述公式。 

おすすめ

転載: www.cnblogs.com/lvdongjie/p/11615221.html