機械学習の分類と回帰アルゴリズムの要約の総合評価指標

この資料では、評価指標の分類と回帰アルゴリズムをマスターすることができ、この記事を読んだ後、「機械学習帳」最初の3、です。

PS:との記事の最後の練習

読んだ後、機械学習アルゴリズムに常識すでにフィッティングとオーバーフィッティング、ベイズ誤差とバイアスと分散負っているものを知って後に。このモデルでは、オフラインの機械学習のいくつかのパフォーマンスを評価するための指標の数を導入します。

我々はより多くのトレーニングモデルを取得すると、行うこれらのモデルのパフォーマンスを測定するためにどのように?我々は評価指標を呼び出して「善と悪」標準のモデルを測定できるようにする必要があること。異なるモデルの効果を比較した場合、別の評価指標は、多くの場合、良い面と悪い効果モデルは相対的であることを意味しており、異なる結論につながります。

学習課題の異なる種類のために、我々はここで我々が分類と回帰アルゴリズムを評価するために、最も一般的な指標のいくつかを紹介し、さまざまな評価指標を持っています。

カテゴリーインデックス

生活の中で問題のほとんどはので、ここで下の分類に関連する指標のいくつかを説明するための例と分類2と、すべての2クラス分類問題です。

正式に導入された指標の前に、最初はいくつかの基本的な概念を普及するには:時々、「陽性」、「真」、「n型」、「1」と同じことを意味し、「負」、「偽」、「ネガ型」 「0」にも同じことを指します。このサンプルの例予測モデルが1であるために、それは真、またはポジ型、または正であり、このサンプルの結果を予測するモデルを考えることができ、実際には、それは意味があります。

混同マトリックス

混同行列(混同行列は)K-進分類のための分類問題を評価するために一般的に使用されるツールである、実際には、予測分類器を記録するKXKテーブルです。一般的なバイナリの場合、その混同行列は2×2です。

第二のカテゴリーでは、試料は、その実際の結果の予測結果と真陽性のモデル(真の陽性、TP)、真陰性(真の陰性、TN)、偽陽性(偽陽性、FP)、偽陰性の分割の組み合わせに基づくことができます(偽陰性、FN)。TP、TN、FPによると、FNは混同行列は、二分取得することができます。

精度

精度(正確さ)は、モデルが正しく予測されたことをいう(予測を含む真正しい偽予測が正確である)サンプルの合計数のサンプルの割合の数、すなわち、

これは正確にモデルを分類されたサンプルの数は、表し、それはサンプル数のすべてを表しています。

バイナリでは、精度は、以下の計算式により求めることができます。

精度が最も簡単で直感的な評価指標の分類問題の一つであるが、精度のいくつかの制限があります。陰性サンプルの99%を占めたときにモデルが予測たとえば、第二のカテゴリーで、全ての試料陰性試料は99%の正解率を得ることができます。正確率が高いようですが、それは正のサンプルを見つけることができないので、実際には、ときに、このモデルでは、使用していません。

正解率

正解率(精度)がモデル予測を意味真であるが、サンプルの総数の実際の割合は本当に真のモデルがサンプルの数を予測し、すなわち、

泥棒を捕まえるためにこのような警察として、説明するために、6人を含め、10人を逮捕泥棒で、その後、正解率は6/10 = 0.6です。

リコール

リコール時々リコール呼ば(リコール)は、モデルの予測を意味真、また、サンプル数の実質的にすべての実際の比率を占めている、すなわち、実際のサンプルの真数であります

上記の例を、警察を示すか、泥棒をキャッチし、10人を逮捕し、個人が泥棒6である、別の3人の泥棒離れて存在するために、その後、再現率は、6 /(6 + 3)である≈0.67。

バリューF1 /Fα値

一般的に、精度と再現率が相互に排他的である、すなわち、正確なレートが高いと言うことであり、再現率が低くなり、再現率が高く、精度率が低くなります。したがって、考慮に値インデックスF1の精度と再現率の設計を取ります。F1、すなわち、精度と再現率の調和平均値であります

私たちは精度と再現率に焦点を当てる方法をいくつかのシナリオでは、この時間の同じではありませんが、より一般的な形式Fα値のF1値は満たすことができるようになります。Fαを次のように値が定義されています

ここでαは、リコールの正確な速度の相対的な重要性の大きさを表しています。

マルチ分類

私たちが遭遇する多くの時間をそれぞれの組み合わせ二十から二カテゴリはバイナリ混同行列に対応することを意味し、マルチ分類、です。仮説は、これらの平均n個の結果が来てどのようにして、n個のバイナリの混同行列のですか?

マクロの平均

第1のアプローチは、これが呼び出され、計算されたそれぞれの混同行列結果の最初にあり、その後平均値を算出し、「マクロ平均」。

マイクロ平均

上記マクロ平均に加えて、我々はまた、平均TP、TN、FP、FNを得るために平均化され、次いで平均値がこれらに基づいて計算され、これは」と呼ばれる行列の二価対応する要素を混同することができマイクロ平均。」

ROC

(等確度、精度、リコールなど)前述のこれらの指標は、モデル(ネガ型又はポジ型)によって予測された結果を得るために必要とされる、多くのモデルのために、予測された確率は、クラスに属する正であります値、あなたはポジティブクラスの閾値以上の閾値を、それ以外の場合は負のカテゴリを指定する必要がありそう。コントラストは、直接モデルの汎化能力の大きさを決定します。

評価指標は、評価指標が閾値を指定することができない特性(受信者動作特性ROC)曲線を操作する受信機と呼ばれます。ROC曲線の縦軸は、真陽性率(TPR)であり、横軸は、偽陽性率(FPR)です。

次のように式真陽性率と偽陽性率は次のとおりです。

それは見つけることができる、とTPRリコール式は同じです。それでは、どのようにそれのROC曲線を描くのですか?見ることができる、一連のROC曲線(FPR、TPR)のドットが、特定のモデルで構成され、唯一の唯一のセット(FPR、TPR)は、ROC曲線上の点に対応する分類結果を得る、方法それの多くを得ますか?

閾値として予測確率値続いて降順に全ての試料(ポジ型の確率値で)予測値に対する我々のモデルは、各モデルは、ポジティブ・クラスのしきい値の下に予測結果を得られるサンプルの数ネガ型、及びあなたが少しを取得し、最終的にはROC曲線上のすべての点を接続することができるように、セット(FPR、TPR)の値を生成するROC曲線が登場。明らかに、時間設定された閾値より、より多くの(FPR、TPR)の値を生成する、よりスムーズ描かROC曲線。すなわち、  必ずしもサンプルの数にリンクされていない絶対的な関係、の閾値数とのROC曲線の滑らかさの数を設定します現実には、私たちのほとんどが描かれたROC曲線が滑らかではありません。

ROC曲线越靠近左上角,表示效果越好。左上角坐标为(0,1),即 FPR = 0,TPR = 1,这意味着 FP(假阳性)=0, FN(假阴性)=0,这就是一个完美的模型,因为能够对所有的样本正确分类。ROC曲线中的对角线(y=x)上的所有的点都表示模型的区分能力与随机猜测没有差别。

AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积,很明显,AUC的结果不会超过 1,通常ROC曲线都在 y = x 这条直线上面,所以,AUC的值一般在 0.5 ~ 1 之间。

如何理解AUC的作用呢?随机挑选一个正样本(P)和负样本(N),模型对这两个样本进行预测得到每个样本属于正类的概率值,根据概率值对样本进行排序后,正样本排在负样本前面的概率就是AUC值。

AUC可以通过下面的公式计算得到。

其中,rank为将模型对样本预测后的概率值从小到大排序后的正样本的序号(排序从1开始),|P|为正样本数,|N|为负样本数。

需要注意的是,如果多个样本被模型预测的概率值一样,那么求rank的时候只需要将这些原始rank加起来求平均即可。所以说相等概率得分的样本,无论正负,谁在前,谁在后无所谓。

对数损失

对数损失(Logistic Loss,logloss)是对预测概率的似然估计,其标准形式为:

对数损失最小化本质是上利用样本中的已知分布,求解导致这种分布的最佳模型参数,使这种分布出现概率最大。

对数损失对应的二分类的计算公式为:

其中,N为样本数,为第i个样本预测为1的概率。

对数损失在多分类问题中也可以使用,其计算公式为:

其中,N为样本数,C为类别数,表示第i个样本的类别为j,为第i个样本属于类别j的概率。

logloss衡量的是预测概率分布和真实概率分布的差异性,取值越小越好。

回归指标

在回归学习任务中,我们也有一些评估指标,一起来看看吧!

平均绝对误差

平均绝对误差(Mean Absolute Error,MAE)公式为:

其中,N为样本数,为第i个样本的真实值,为第i个样本的预测值。

均方误差

均方误差(Mean Squared Error,MSE)公式为:

平均绝对百分误差

平均绝对百分误差(Mean Absolute Percentage Error,MAPE)公式为:

MAPE通过计算绝对误差百分比来表示预测效果,其取值越小越好。如果MAPE=10,这表明预测平均偏离真实值10%。

由于MAPE计算与量纲无关,因此在特定场景下不同问题具有一定可比性。不过MAPE的缺点也比较明显,在  处无定义。另外需要注意的是,MAPE对负值误差的惩罚大于正值误差,比如预测一个酒店消费是200元,真实值是150元的会比真实值是250的MAPE大。

均方根误差

均方根误差(Root Mean Squared Error)的公式为:

RMSE代表的是预测值和真实值差值的样本标准差。和MAE相比,RMSE对大误差样本有更大的惩罚。不过RMSE有一个缺点就是对离群点敏感,这样会导致RMSE结果非常大。

基于RMSE也有一个常用的变种评估指标叫均方根对数误差(Root Mean Squared Logarithmic Error,RMSLE),其公式为:

RMSLE对预测值偏小的样本惩罚比预测值偏大的样本惩罚更大,比如一个酒店消费均价是200元,预测成150元的惩罚会比预测成250的大。

R2

R2(R-Square)的公式为:

R2用于度量因变量的变异中可由自变量解释部分所占的比例,一般取值范围是 0~1,R2越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归的拟合程度就越好。

练习题

看完这篇文章,我们来做几道练习题来检验下学习成果:

  1. 为什么说ROC曲线的光滑程度与样本数量没有绝对的关系呢?

  2. 如果一个模型的AUC小于0.5,可能是因为什么原因造成的呢?

  3. 在一个预测流量的场景中,尝试了多种回归模型,但是得到的 RMSE 指标都非常高,考虑下可能是因为什么原因造成的呢?

  4. 在一个二分类问题中,15个样本的真实结果为[0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0],模型的预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1],计算准确率、精确率、召回率以及F1值。

  5. 在一个二分类问题中,7个样本[A, B, C, D, E, F, G]的真实结果为[1, 1, 0, 0, 1, 1, 0],模型的预测概率为[0.8, 0.7, 0.5, 0.5, 0.5, 0.5, 0.3],计算AUC值。

想要学习更多机人工智能知识,欢迎关注公众号AI派

以上所有的练习题答案我都会公布在我的知识星球中,方便后续做一个知识沉淀;另外,关于文章有任何疑问或者想要深入学习与交流,都可以加入我的知识星球来交流(加入方式:扫描下方二维码或者点击“阅读原文”)。

参考:

[1] 周志华.机器学习.第二章第三节(性能度量)
[2] 美团算法团队.美团机器学习实战.第一章第一节(评估指标)
[3] https://blog.csdn.net/qq_22238533/article/details/78666436
[4] https://blog.csdn.net/u013704227/article/details/77604500

 

おすすめ

転載: blog.csdn.net/Mei_ZS/article/details/92996581