Weka中分类器指标的说明

Correlation coefficient (= CC) :

相关系数,相关性系数 (Correlation Coecient)是真实值a与预测值p之间的统计相关性,它是一个[-1,1]之间的实数。1表示完全相关,0表示完全不相关,-1表示反向完全相关。对一个数值预测模型,相关性系数越接近1表明预测能力越好,而其他误差相关的度量都是越小越接近0越好。均方误差是最常用的基本方法,程序中得不到,但是可以得到均方根误差。

Mean absolute error 和 Root mean squared error: 

均方根误差和相对平方根误差。用来衡量分类器预测值和实际结果的差异,越小越好。

Relative absolute error 和 Root relative squared error:

举个例子来说明:实际值为500,预测值为450,则绝对误差为50;实际值为2,预测值为1.8,则绝对误差为0.2。这两个数字50和0.2差距很大,但是表示的误差率同为10%,所以有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值的比重来反映误差大小,效果更佳。
详见:http://www.doc88.com/p-89192423133.html

TP,FP:

TP表示识别率,对某一分类的实例,有多少概率把它识别出来。提高识别率在医疗系统中很重要,如果病人有病,却没有识别出来,后果很严重!
FP表示误判率,对其他分类的实例,有多少概率把实例识别成本分类。

Precision:

精准度。表示对某一个类别的分类中,正确的实例数占总数的比率。

Recall:

召回率,又称查全率。表示识别正确的实例数,占该类别的实例的总数。由于本例中没有未识别的实例,所以Recall=TP。

F-Measure:

这个值是精准度和召回率的综合,在现实中精准度和召回率往往不可兼得,所以引入了F值,F值越大说明精准度和召回率都相对较高,详见:http://baike.baidu.com/link?url=3mOTzT44pst0QuciABcnqnIHV-RI3XrfldYTZrPRxq6uEnttl-IQnVC-c2HOJ3jTvAXgXKSi3htc86bsamPoQq 

Accuracy (= ACC) : 

正确率


ROC Area:

详见:http://blog.csdn.net/rav009/article/details/9096867

混淆矩阵Confusion Matrix:

第一行的“7”表示有7个a情况的实例得到正确分类,第一行的“2”表示有2个a情况被错误地分类成了b。

第二行的“3”表示有3个b情况的实例被错误的分类成了啊,第二行的”2“表示有2个b情况得到正确的分类。

注意,Correction coefficient 只适用于连续值类别,Accuracy 只适用于离散类别

Kappa statistic:这个指标用于评判分类器的分类结果与随机分类的差异度。

绝对差值(Mean absolute error):这个指标用于评判预测值与实际值之间的差异度。把多次测得值之间相互接近的程度称为精密度,精密度用偏差表示,偏差指测得值与平均值之间的差值,偏差越小,精密度则越高。

中误差(Root mean square error:RMSE):带权残差平方和的平均数的平方根,作为在一定条件下衡量测量精度的一种数值指标。中误差是衡量观测精度的一种数字标准,亦称“标准差”或“均方根差”。在相同观测条件下的一组真误差平方中数的平方根。因真误差不易求得 , 所 以通常用最小二乘法求得的观测值改正数来代替真误差。它是观测值与真值偏差的平方和观测次数 n 比值的平方根。中误差不等于真误差,它仅是一组真误差的代表值。中误差的大小反映了该组观测值精度的高低,因此,通常称中误差为观测值的中误差。


猜你喜欢

转载自blog.csdn.net/tianyaleixiaowu/article/details/80597659
今日推荐