(RPM)機械学習・パフォーマンス・メトリックは、一般的に精度、高精度、リコール、ROC、Fスコアで使用されるので、これらのものはありますか?

 

https://www.cnblogs.com/anai/p/11576831.html

 

私たちの絵の分類は、例えば、もちろん、テキスト、音声に置き換えられ、そのため同じです。

  • 正の
    陽性サンプル。たとえば、画像のグループを識別したい猫ではありませんあなたは猫の絵を予測している、この絵は、正のサンプルになったと予想されました。

  • 負の
    負のサンプル。たとえば、画像のグループを識別したい猫ではありません、あなたは猫ではない画像を予測し、この絵は陰性サンプルとなっ予想されました。

  • TPの
    グループは、絵が本当に正のサンプル数で、正のサンプル画像を見込んでいます。

  • TN:
    絵の負のサンプルの予測のセットは、絵は本当に負のサンプル数です。

  • FP:
    絵の陽性サンプルの予測のセットは、実際には、負のサンプル数の絵です。また、「偽陽性」として知られています

  • FN:
    絵の負のサンプルの予測のセットは、実際には、正のサンプルの数の写真です。またとして知られている「逃しました。」

  • 精度(正確さ)
    サンプル数、サンプルの合計数の分類が正しい割合。
    サンプルのACC =(TP + TN)/総数

  • 精密/精度の精度
    絵の陽性サンプルの予測のセットは、実際に占有絵の陽性検体の割合です。

なぜもの精密精度の概念を提案していましたか?サンプル数が負のサンプルセットを試験した場合、前者は、バランスのとれないので、このようなサンプルの数は、正、負のサンプル番号99は、限り、各モデルとして負のサンプルサンプル予測を与えられ、その後、精度=であるように(0 +99)/ 100 = 0.99、精度は依然として高くすることができるが、これは無意味です。同じサンプルセット、精度比式に適用される同様の方法は、非常に高い値を取得することは不可能です。

  • リコール/リコールリコール
    絵のうち成功した予測のシェアの割合は、すべての画像は実際に陽性サンプルです。

  • 精度と再現率との関係
    の一般的な、準は、その後、チェック(Ningquewulanと思う)、多くの場合、不完全で確認したい。全体を確認したい、彼らは(むしろ考える間違ったが、オフに左逮捕)許されない傾向があります。したがって、PとRの量は、相反する2つです。

  • PR曲線- (精密リコール曲線)
    異なる閾値で撮影された曲線P及びRにより得られるプロット。ここでの閾値は、試料に正サンプルの確率を予測するモデルを意味します。例えば、閾値は、すべての確率は、予測が正のサンプルをサンプリングするために予測される陽性サンプルを、なったと見なされるしきい値のサンプルより大きい予測、TP(真陽性サンプル)及びFP(による実際0.6でありますなる正ではないサンプル)。だから、PRのセットを計算することができ、しきい値を取り、その後、複数の閾値を取った後、PR曲線が描かれています。

上の図からわかるように、PRは、平衡曲線(P = R点)の使用は、より良好な学習者を決定することである(図、B、C 3人の学習者が存在する)、AはCよりも良好なBより優れています。

  • F1スコアとスコアはFβ
    しかし、上記の測定方法は画像のみを通じて理解することができるが、我々は分数によって、より直接的なモデルの品質を決定することができるように願っています。したがって、より一般的に使用される方法は、各モデルの同じ閾値または分数F1Fβ画分に対策を取ることである(以下、Zhihua教師スイカ帳からショット[1])。

F1スコア式は、それが来る方法ですか?ルック:式2.10は、実際には、調和平均は以下の式アウトすることによって導出されます。

いわゆる調和平均はこれである:カウントダウンがすべての数字を持っていたら算術平均して、逆を取ります。これは、アカウントにPとRの平均パフォーマンスの値をとります
なぜβ>チャールズときフルレート大きな影響力を持っており、より大きな影響β<1つの精密ときにそれを持っていますか?見て:式2.11を、実際には、調和平均を加重次式により導出されています。

β的平方相当于1/R的权重,当β大于1,相当于提高1/R的重要度,当β小于1,相当于降低了1/R的重要度,而R正是查全率。
所以,当我们更倾向于查准率R的表现(即想查的更全,宁抓错不放过)时,可以将β设置为一个大于1的数字,具体设置多少,就要看倾向程度了,然后进行Fβ分数的比较。

  • ROC曲线
    ROC的全称是Receiver operating characteristic,翻译为受试者工作特征。先不用管这个名字有多难理解。我们先弄清楚ROC曲线是什么。ROC曲线如下图[2]:

纵坐标是真正率(其实就是召回率/查全率)=TP/(TP+FN),横坐标是假正率(误检率FPR)=FP/(FP+TN)。
该曲线是模型在不同阈值(与PR曲线中提到的阈值意思一样)下的查全率和误检率的表现。当阈值设为0时,相当于所有样本预测为正,查全率达到1,误检率当然也达到1;当阈值设为1时,相当于所有样本预测为负,查全率达到0(太严格了),误检率当然也达到0(因为严格嘛)。
因为我们希望召回率高,误检率低,所以曲线上越接近左上角(0,1)的点表现越好。所以ROC曲线是干嘛的?就是通过查全率和误检率的综合表现来评价模型的好坏用的。
你可以尝试大量增加测试样本的正样本或负样本的数量,让数据集变的不均衡,然后会发现ROC曲线可以几乎稳定不变,而PR曲线会发生巨大的变化。如下图:[5]。

可以根据PR曲线中P(precision)的公式,R(recall)的公式,根据ROC曲线中R(recall)的公式,误检率(FPR)的公式来理解,这里不细说了。

  • AUC
    area under curve。定义为ROC曲线下的面积。然因为这个面积的计算比较麻烦。所以大牛们总结出了下面的等价的计算方法。
    假设一组数据集中,实际有M个正样本,N个负样本。那么正负样本对就有M*N种。
    AUC的值等同于在这M*N种组合中,正样本预测概率大于负样本预测概率的组合数所占的比例。

其中I函数定义如下:
P正>P负,输出1;
P正=P负,输出0.5;
P正<P负,输出0。
上面的计算方法已经比计算面积要愉快多了,但是还有相对更好的计算思路:
按照预测概率从小到大排序,得到排好序的M*N个组合,其中正样本的序号就表示比当前正样本概率小的样本个数,再从这些样本中减去正样本的个数,就得到了当前正样本概率大于负样本概率的组合数。
为了计算方便,我们先把排好序的M*N个组合中所有正样本的序号累加,然后减去正样本的个数的累加,就得到了所有正样本概率大于负样本概率的组合数,然后除以M*N,就得到了在这M*N种组合中,正样本预测概率大于负样本预测概率的组合数所占的比例,这个比例等同于AUC。下面我们来看看具体的计算公式[4] :

看上去挺复杂的,稍微解释一下你就明白了。
分子左边的部分就是排好序的M*N个组合中所有正样本的序号累加,
分子右边的部分其实就是正样本的个数的累加的公式,这个稍微解释一下:比如我们有5个正样本,那么正样本的个数累加就是1+2+3+4+5=15,带入公式就是5*(1+5)/2=15,而这个公式就是“高斯等差数列求和公式”: (首项+末项)x项数÷2。
分母部分比较好理解了,就是所有的正负样本的组合数。
如果在排序的时候遇到了概率值相同的情况,其实谁前谁后是没有关系的,只是在累加正样本的序号的时候,如果有正样本的概率值和其他样本(包括正和负)的概率值一样,那么序号是通过这些相同概率值的样本的序号的算术平均数来计算的。举例如下[3]:

在累加正样本的序号的时候,正样本的rank(序号)值:
对于正样本A,其rank值为7
对于正样本B,其rank值为6
对于正样本E,其rank值为(5+4+3+2)/4
对于正样本F,其rank值为(5+4+3+2)/4
最后正样本的序号累加计算就是:

求出了各个模型的ROC曲线下的面积,也就是AUC,就可以比较模型之间的好坏啦。

注意

以上度量指标一般都是用于二元分类,如果是在多分类的场景下,可以拆成多个二分类问题来度量。而如果除了分类还有其他预测的任务,就需要针对性的度量指标来评估模型的好坏了。比如像目标检测,除了目标分类,还要预测目标的边界框位置,所以用的是mAP指标,具体可以参考下一篇文章《目标检测中为什么常提到IoU和mAP,它们究竟是什么?》

参考文献

[1]《西瓜书》周志华 著
[2]《机器学习实战》Peter Harrington 著
[3] https://blog.csdn.net/qq_22238533/article/details/78666436
[4] https://blog.csdn.net/pzy20062141/article/details/48711355
[5] https://www.cnblogs.com/dlml/p/4403482.html

ok,本篇就这么多内容啦~,感谢阅读O(∩_∩)O,88~

おすすめ

転載: www.cnblogs.com/salmoner/p/11647315.html