数据挖掘评估性能度量
对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure).
回归任务性能度量
在预测任务中,给定样例集
D={(x1,y1),(x2,y2),...,(xm,ym)},其中y是示例x的真实标记.要评估学习其的性能,就要把学习器的预测结果f和真实标记y进行比较:
- 均方误差(mean squared error,MSE) 其计算公式为:
E(f;D)=1/m∗m=1∑m(f(xi)−yi)
一般形式:
E(f;D)=∫(f(x)−y)2p(x)
- 平均绝对误差(Mean Absolute Error,MAE) :平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:
E(f;D)=1/m∗m=1∑m∣f(xi)−yi∣
- R2(R-Square)的公式为残差平方和:
SSres=m=1∑m(f(xi)−yi)2
总平均值:
SStot=m=1∑m(f(xi)−ymean)2
其中y_mean表示y的平均值得到表达式为:
R2=1−SStotSSres
R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1, 越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以 也称为拟合优度(Goodness of Fit)的统计量。
yi表示真实值, f(xi)表示预测值, y_mean表示样本均值。得分越高拟合效果越好。
分类任务性能度量
1.错误率(error rate)与精度(accuracy) 这是分类任务中最常用的两种性能度量,既适用于二分类任务,也适用于多分类任务.错误率是分类错误的样本数占样本总数的比例.对样本D,分类错误率定义为:
E(f;D)=1/m∗i=1∑m(f(xi)=
yi)
精度定义为:
acc(f;D)=1/m∗i=1∑m(f(xi)=yi)
=1−E(f;D)