模型评估与选择(一)

模型评估与选择(一)

以下源于对西瓜书《机器学习》的模型评估的总结,有较多的抄袭。

1、经验误差与过拟合

学习器在训练集上的误差称为经验误差,在新样本上的误差称为泛化误差

当学习器把训练样本学得“太好”的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会导致泛化性能下降,这种现象称为过拟合,以过拟合相对的是欠拟合,这是指对训练样本的一般性质尚未学好。

在现实任务中,我们往往有多种学习算法可供选择,甚至对同一个学习算法,当使用不同的参数配置时,也会产生不同的模型。那么我们就必须进行模型选择,理想的解决方案是选择泛化误差最小的那个模型。

2、评估方法

从上述概念可以知道,我们无法直接获得泛化误差,那么如何评价泛化误差?

通常,我们可以通过实验测试来对学习器的泛化误差进行评估进而做出选择。为此,需要一个”测试集”来测试学习器对新样本的判别能力,然后以测试集上的”测试误差”作为泛化误差的近似。

1、留出法

概念:将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T

问题一:因为划分,导致训练集S小于数据集D,训练出的模型有可能跟数据集D训练的模型不一样。
解决方案:使训练集S尽可能跟数据集D保持数据分布的一致性,避免因数据划分过程中引入额外的偏差而对最终结果产生影响,所以,划分方式通常使用“分层采样”。

问题二:即使给定了训练集/测试集的样本比例,因为随机性,会存在多种划分,甚至有可能导致特殊样本全在测试集,这样一来,模型评估的结果也会有差别。
解决方案:既然单次使用留出法得到的评估结果不稳定可靠,那么在使用留出法时,采用若干次的随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

问题三:若令S包含绝大多数样本,则训练出来的模型可能更接近于用D训练出的模型,但由于T比较小,评估结果可能方差较大;若令T多包含一些样本,则SD差别大,被评估的模型与用D训练出的模型相比可能有较大的差别,从而降低了评估的保真性,评估结果偏差大。
解决方案:这个问题没有完美的解决方案,常见的做法是将大约2/3〜4/5的样本用于训练,剩余样本用于测试。需要注意的是,一般而言,测试集至少应含30个样例。

2、交叉验证法

概念:先将数据集D划分为k个大小相似的互斥也集,然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回这k次测试结果的均值。

交叉验证法跟留出法很相似,因此问题也是一样的:
1、划分时每个子集尽可能保持数据分布的一致性;
2、重复多次k折交叉验证,取均值作为评估结果;
3、k的取值决定了训练集和测试集的大小,因此决定了评估结果的稳定性和保真性。

3、留一法

概念:留一法是交叉验证法的一种,它的特殊性在于每个子集只包含一个样例。

优点:留一法使用的训练集与初始数据集相比只少了一个样本,这使得在绝大多数的情况下,留一法中被实际评估的模型与期望评估的模型很相似。因此,留一法的评估结果往往被认为比较准确。

缺点:在数据集比较大时,训练m个模型的计算开销可能是难以忍受的,而这还是在未考虑算法调参的情况下。另外,留一法的估计结果也未必永远比其它评估方法准确;“没有免费的午餐”定理对实验评估方法同样适用。

4、自助法

概念:给定包含m个样本的数据集 D ,对它进行随机的放回采样,产生m个样本的数据集 D D 作为训练集, D D 作为测试集。

在放回抽样中,样本在m次采样中始终不被采到的概率是 ( m 1 m ) m ,取极限得到

扫描二维码关注公众号,回复: 3529242 查看本文章
lim m ( 1 1 m ) m 1 e 0.368

也就是说约有36.8%的样本不在训练集中。

优点:使用自助法,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有总量约1/3的、没有在训练集中出现的样本用于测试。这样的测试结果叫做”包外估计”。自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。

缺点:自助法产生的数据集改变了初始数据集的分布, SD的样本大小虽然一致,但样本分布却不一样,这会引入估计偏差,因此,在初始数据足够时,留出法和交叉验证法更常用一些。

3、性能度量

概念:对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量泛化能力的评价标准,这就是性能度量

1、错误率与精度

错误率的定义:

E ( f ; D ) = 1 m i = 1 m ( f ( x i ) y i )

精度的定义:
a c c ( f ; D ) = 1 m i = 1 m ( f ( x i ) = y i ) = 1 E ( f ; D )

比较方式:使用精度比较性能很简单,精度越高,性能越好。

2、查准率、查全率与F1


预测结果 正例 反例 T P ( ) F N ( ) F P ( ) T N ( )

查准率:亦称 准确率,测为正例中,有多少是正确的。
P = T P T P + F P

查全率:亦称 召回率,有多少正例被正确预测。
R = T P T P + F N

比较方式

查准率和查全率是一对矛盾的度量;一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低;因此常常使用以下方式进行性能比较。

P-R图:以查准率作为纵轴、查全率作为横轴,绘制P-R曲线所得到的图。在进行比较时,若一个学习器的P-R曲线被别一个学习器的曲线完全”包住”,则可断言后者的性能优于前者.
不足:如果这两条学习器的P-R曲线发生了交叉,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。

BEP:Break-Even Point的简称,”平衡点”,它是“查准率==查全率”时的取值。BEP越大,性能越好。

F1:调和平均,F1值越大性能越好。

1 F 1 = 1 2 ( 1 P + 1 R )


F β :加权调和平均, β 度量了查全率对查准率的相对重要性, β > 1时查全率有更大影响, β < 1时查准率有更大影响。 F β 值越大性能越好。
1 F β = 1 1 + β 2 ( 1 P + β 2 R )

对于进行多次训练/测试得到多个二分类混淆矩阵的情况:
宏F1:先求出P、R的均值,再求F1.

m a c r o P = 1 n i = 1 n P i

m a c r o R = 1 n i = 1 n R i

1 m a c r o F 1 = 1 2 ( 1 m a c r o P + 1 m a c r o R )

微F1:先求出TP、FP、TN、FN的均值,再求P、R,最后求F1.

m i c r o P = T P ¯ T P ¯ + F P ¯

m i c r o R = T P ¯ T P ¯ + F N ¯

1 m i c r o F 1 = 1 2 ( 1 m i c r o P + 1 m i c r o R )

3、ROC与AUC


预测结果 正例 反例 T P ( ) F N ( ) F P ( ) T N ( )

真正例率:True Positive Rate,简称TPR,数值上等于查全率R.

T P R = T P T P + F N

假正例率:False Positive Rate,简称FPR.
F P R = F P T N + F P

ROC图:以TPR为纵坐标、FPR为横坐标绘制ROC曲线所得到的图。ROC的比较方式跟P-R一样,当一个学习器的P-R曲线被别一个学习器的曲线完全”包住”,则可断言后者的性能优于前者.如何曲线发生交叉时则使用AUC值进行比较。
AUC:ROC曲线下的面积

A U C = 1 2 i = 1 m 1 ( x i + 1 x i ) ( y i + 1 + y i )

ps:根据直角梯形的面积公式可推出AUC的面积公式。

4、代价敏感错误率与代价曲线

在现实任务中经常会遇到这样的情况:不同类型的错误所造成的后果不同。为了权衡不同类型错误所造成的不同损失,可为错误赋予”非均等代价”。


预测类别 第0类 第一类 0 0 c o s t 01 1 c o s t 10 0

代价敏感错误率

E ( f ; D ; c o s t ) = 1 m ( x i D + ( f ( x i ) y i ) × c o s t 01 + x i D ( f ( x i ) y i ) × c o s t 10 )

正例概率代价:p是样本为正例的概率;
P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 p ) × c o s t 10

归一化代价:FNR=1-TPR;
c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 p ) × c o s t 10 p × c o s t 01 + ( 1 p ) × c o s t 10

代价曲线:在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,而代价曲线则可达到该目的。
代价曲线的绘制:ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上的点(FPR,TPR),那对应的代价平面上的线段为点(0,FPR)到(1,FNR)的连线,而线段下的面积即表示了该条件下的期望总体代价;将ROC曲线上所有的点都转换成代价平面上的线段,然后取所有线段下面围成的面积,即为在所有条件下学习器的期望总体代价。

猜你喜欢

转载自blog.csdn.net/u012587024/article/details/82021739