Weka中分类器指标的说明

Correlation coefficient (= CC) ：

相关系数，相关性系数 (Correlation Coecient)是真实值a与预测值p之间的统计相关性，它是一个[-1,1]之间的实数。1表示完全相关，0表示完全不相关，-1表示反向完全相关。对一个数值预测模型，相关性系数越接近1表明预测能力越好，而其他误差相关的度量都是越小越接近0越好。均方误差是最常用的基本方法，程序中得不到，但是可以得到均方根误差。

Mean absolute error 和 Root mean squared error：　

均方根误差和相对平方根误差。用来衡量分类器预测值和实际结果的差异，越小越好。

Relative absolute error 和 Root relative squared error：

举个例子来说明：实际值为500，预测值为450，则绝对误差为50；实际值为2，预测值为1.8，则绝对误差为0.2。这两个数字50和0.2差距很大，但是表示的误差率同为10%，所以有时绝对误差不能体现误差的真实大小，而相对误差通过体现误差占真值的比重来反映误差大小，效果更佳。
详见：http://www.doc88.com/p-89192423133.html

TP,FP:

TP表示识别率，对某一分类的实例，有多少概率把它识别出来。提高识别率在医疗系统中很重要，如果病人有病，却没有识别出来，后果很严重！
FP表示误判率，对其他分类的实例，有多少概率把实例识别成本分类。

Precision：

精准度。表示对某一个类别的分类中，正确的实例数占总数的比率。

Recall：

召回率，又称查全率。表示识别正确的实例数，占该类别的实例的总数。由于本例中没有未识别的实例，所以Recall=TP。

F-Measure：

这个值是精准度和召回率的综合，在现实中精准度和召回率往往不可兼得，所以引入了F值，F值越大说明精准度和召回率都相对较高，详见：http://baike.baidu.com/link?url=3mOTzT44pst0QuciABcnqnIHV-RI3XrfldYTZrPRxq6uEnttl-IQnVC-c2HOJ3jTvAXgXKSi3htc86bsamPoQq

Accuracy (= ACC) ：

正确率

ROC Area：

详见：http://blog.csdn.net/rav009/article/details/9096867

混淆矩阵Confusion Matrix：

第一行的“7”表示有7个a情况的实例得到正确分类，第一行的“2”表示有2个a情况被错误地分类成了b。

第二行的“3”表示有3个b情况的实例被错误的分类成了啊，第二行的”2“表示有2个b情况得到正确的分类。

注意，Correction coefficient 只适用于连续值类别，Accuracy 只适用于离散类别

Kappa statistic：这个指标用于评判分类器的分类结果与随机分类的差异度。

绝对差值（Mean absolute error）：这个指标用于评判预测值与实际值之间的差异度。把多次测得值之间相互接近的程度称为精密度，精密度用偏差表示，偏差指测得值与平均值之间的差值，偏差越小，精密度则越高。

中误差（Root mean square error：RMSE）：带权残差平方和的平均数的平方根，作为在一定条件下衡量测量精度的一种数值指标。中误差是衡量观测精度的一种数字标准，亦称“标准差”或“均方根差”。在相同观测条件下的一组真误差平方中数的平方根。因真误差不易求得 , 所以通常用最小二乘法求得的观测值改正数来代替真误差。它是观测值与真值偏差的平方和观测次数 n 比值的平方根。中误差不等于真误差，它仅是一组真误差的代表值。中误差的大小反映了该组观测值精度的高低，因此，通常称中误差为观测值的中误差。