周志华版机器学习第二章习题答案

原文参考链接:https://blog.csdn.net/icefire_tyh/article/details/52065224
学习笔记:https://blog.csdn.net/wynlnlhhjy/article/details/81409514?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4
习题
2.1 在这里插入图片描述
2.2
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是50%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
2.3
P-R图通常是非单调,不平滑的,在很多局部有上下波动,这意味着,即使A和B的F1值相同,A比起B的BEP值也是可大、可小、可相等的,因此二者没有绝对相关。BEP点前后很可能同时出现更大的P和更大的R,因此现实中BEP并不实用。
2.4
查全率: 真正例占真实正例的比例
真正例率: 真正例占真实正例的比例
显然查全率与真正例率是相等的。
查准率:真正例占预测结果为正的比例
假正例率: 假正例占所以真实反例的比例
两者并没有直接的数值关系
2.5
在这里插入图片描述
可以看出一共有2020个测试样本,10个正,10个反。学习器排序的结果是
+,−,(+,+),−,(+,−),(+,−),(+,+),(−,−),(+,+),(−,−,−),+,−其中括号内的样本排在相同的位置。
公式2.21累加了所有不在正例的反例数目,其中同样的位置标记为0.5,在正例前面标记为1。从图中可以看出,折线每次向右延伸,表示扫描到了反例,折线上方对应的面积,就是该反例后面有多少个正例,每个正例是一个正方形,对应的面积是1。同位置上的正例是个三角形,对应的面积是0.5。计算出总面积后,由于ROC图的坐标是归一化的,所以总面积要除以一开始放大的倍数,也就是m+m−。
2.6
在这里插入图片描述
2.7
由定义可以知道TPR与FPR都是由0上升到1,那么FNR则是由1下降到0。
每条ROC曲线都会对应一条代价曲线,由于第一条代价线段的是(0,0),(1,1),最后是(0,1)(1,0), 所有代价线段总会有一块公共区域,这个区域就是期望总体代价,而这块区域的边界就是代价曲线,且肯定从(0,0)到(1,0)。
在有限个样本情况下,ROC是一条折线,此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本,ROC是一条连续的折线,代价曲线也是连续的折线,每个点的切线可以求出TPR与FNR,从而得到唯一的ROC曲线。
2.8
Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。 z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。
2.9
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
参考网址:
https://blog.csdn.net/ludan_xia/article/details/81737669
2.10
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43518584/article/details/105566638