关于西瓜书书后习题的思考:机器学习学习笔记二

 第2章 模型评估与选择

2.1 数据集包含1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

关键概念解释:

  • 模型选择(model selection):在现实任务中,我们往往有多种学习算法可以选择,甚至在同一个学习算法,当使用不同的参数配置时也会产生不同的模型,在机器学习中,选择某种学习算法、使用特定的参数配置被称为“模型选择”。
  • 留出法(hold-out):通常,我们需要用实验测试来对学习器的泛化误差进行评估。但是我们总的样本数据是有限的,而对学习器的测试应尽量避开用于训练的样本,因此需要对样例的数据集进行一定的处理,从中产生一定的训练集与测试集。留出法就是这些处理方式的一种,这种方法把数据集直接划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集。

题目思路:

留出法使用时需要注意的是训练/测试集的划分尽可能要保持数据分布的一致性,对于本题来说也就是正反两例分别各抽取70%的训练样本,30%的测试样本。

即正例测试样本:500×70%=350(个)

  反例测试样本:500×70%=350(个)

由于抽取是任意的,则最终的划分方式为:C_{500}^{350}\times C_{500}^{350}

2.2 数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜想),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

关键概念解释:

  • 10折交叉验证法:是交叉验证法(cross validation)的一种具体形式,通常先将数据集D划分为k个大小相似的互斥子集,每个子集D_{i}都要尽可能保持数据分布的一致性。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可以获得k组训练/测试集,从而进行k次训练和测试,最终返回的是这k个测试结果的均值。10折交叉验证发即为k为10时的特例。
  • 留一法(Leave-one-out):假定数据集D中包含有m个样本,则令上述交叉验证法中的k=m。即每次在数据集中留下一个样本进行测试,其他样本全部用于训练。

题目思路:

  1. 对于10折交叉验证法来说:因为训练样本中,正反例各一半,因此并不存在训练样本数较多的类别,所以每次对测试样本的判断都是进行随机猜想,错误率为50%。
  2. 对于留一法来说:根据题意,每次训练集的选择只有两种可能:49种正例,50种反例或者49种反例,50种正例。对于这种模型来说,每次选取的测试集永远是训练得少的那种,因此100%会被判定为另一种类别,即错误率为100%。

2.3 若学习器A的F1值比学习器2高,试析A的BEP值是否也比B高。

关键概念解释:

  • 查准率(precision):在二分问题中,查准率就是学习器预测结果中,预测出真正的正例占所有预测出正例的比例。
  • 查全率(recall):在二分问题中,查全率就是预测出真正的正例占所有真正正例的比例。
  • 平衡点(Break-Even Point):简称BEP,它是一个学习器“查准率=查全率”时的取值。
  • F1值:F1=\frac{2\times P\times R}{P+R},即查准率与查全率的调和平均。

题目思路:

在很多情况下,我们根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,而最终输出的而结果也是根据这个排序,选择一个可能性的阈值,在这个阈值前方的被确认为正例,后面的被确认为反例。

个人认为,BEP对于一个特定的学习器来说总是一个定值,即这个阈值是确定的,是在查准率等于查全率的情况。而F1的值会随着阈值选择的不同而发生变化,所以两者并没有可比性。

2.4 试论述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

关键概念解释:

  • 真正例率(True Positive Rate):在二分问题中,真正例率就是预测结果中是真正正例的占所有真正正例的比例。
  • 假正例率(False Positive Rate):在二分问题中,假正例率是预测结果中假的正例率占所有真的反例的比例。

题目思路:

结合上题可以看出,TPR和R是相同的,而FPR和P却无直接关系。

 2.5 试证明auc=1-Lrank

关键概念解释:

  • 受试者工作特征(Receiver Operating Characteristic):简称ROC,将“假正例率”为横轴“真正例率”为纵轴做曲线即为“ROC曲线”。
  • ROC面积下的曲线(Area Under ROC Curve):如字面上含义,简称AUC。

题目思路:

这道题比较复杂,目前超出了博主的能力,不过博主看到了一篇很好的介绍AUC的文章,大家可以看着这篇文章试着理解一下,如果大家有什么思路也欢迎大家和博主讨论。

http://www.cnblogs.com/van19/p/5494908.html

 2.6 试述错误率与ROC曲线的联系。

题目思路:

由于ROC上每一个点都代表了一个真正例率和假正例率,所以每一个点可以确定一个错误率。

 2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。

关键概念解释:

  • 代价曲线(cost curve):代价曲线的横轴是取值为[0,1]的正概率代价P\left ( + \right )_{cost}=\frac{p\times cost_{01}}{p\times cost_{01}+\left ( 1-p \right )\times cost_{10}},其中p是样例为正例的概率;纵轴是取值为[0,1]的归一化代价:cost_{norm}=\frac{FNR\times p\times cost_{01}+FPR\times \left ( 1-p \right )\times cost_{10}}{p\times cost_{01}+ \left ( 1-p \right )\times cost_{10}} ,其中FPR是假正例率,FNR=1-TPR是假反利率。

题目思路:

ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(FPR,TPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每一个点转化为代价平面上的一条线段,然后取所有线段的下界,围城的面积即为在所有条件下学习器的期望总体代价。

2.8 Min-Max规范化与z-score规范化如下所示。试析二者的优缺点。P48

题目思路:

Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。
z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。

2.9 试述\chi ^{2}检验过程

题目思路:

此题为概率论内容,具体过程可见下述链接:

http://guoze.me/2015/09/07/chi-square/

发布了13 篇原创文章 · 获赞 7 · 访问量 1058

猜你喜欢

转载自blog.csdn.net/qq_40688292/article/details/88075165
今日推荐