周志华版机器学习第二章习题答案

原文参考链接：https://blog.csdn.net/icefire_tyh/article/details/52065224
学习笔记：https://blog.csdn.net/wynlnlhhjy/article/details/81409514?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-4
习题
2.1 在这里插入图片描述
2.2
10折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是50%。
留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，所以错误率是100%。
2.3
P-R图通常是非单调，不平滑的，在很多局部有上下波动，这意味着，即使A和B的F1值相同，A比起B的BEP值也是可大、可小、可相等的，因此二者没有绝对相关。BEP点前后很可能同时出现更大的P和更大的R，因此现实中BEP并不实用。
2.4
查全率: 真正例占真实正例的比例
真正例率: 真正例占真实正例的比例
显然查全率与真正例率是相等的。
查准率:真正例占预测结果为正的比例
假正例率: 假正例占所以真实反例的比例
两者并没有直接的数值关系
2.5
在这里插入图片描述
可以看出一共有2020个测试样本，10个正，10个反。学习器排序的结果是
+,−,(+,+),−,(+,−),(+,−),(+,+),(−,−),(+,+),(−,−,−),+,−其中括号内的样本排在相同的位置。
公式2.21累加了所有不在正例的反例数目，其中同样的位置标记为0.5，在正例前面标记为1。从图中可以看出，折线每次向右延伸，表示扫描到了反例，折线上方对应的面积，就是该反例后面有多少个正例，每个正例是一个正方形，对应的面积是1。同位置上的正例是个三角形，对应的面积是0.5。计算出总面积后，由于ROC图的坐标是归一化的，所以总面积要除以一开始放大的倍数，也就是m+m−。
2.6
在这里插入图片描述
2.7
由定义可以知道TPR与FPR都是由0上升到1，那么FNR则是由1下降到0。
每条ROC曲线都会对应一条代价曲线，由于第一条代价线段的是(0,0),(1,1)，最后是(0,1)(1,0), 所有代价线段总会有一块公共区域，这个区域就是期望总体代价，而这块区域的边界就是代价曲线，且肯定从(0,0)到(1,0)。
在有限个样本情况下，ROC是一条折线，此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本，ROC是一条连续的折线，代价曲线也是连续的折线，每个点的切线可以求出TPR与FNR，从而得到唯一的ROC曲线。
2.8
Min−max规范化方法简单，而且保证规范化后所有元素都是正的，每当有新的元素进来，只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素，会导致其他元素变的非常小(大)。 z−score标准化对个别极端元素不敏感，且把所有元素分布在0的周围，一般情况下元素越多，0周围区间会分布大部分的元素，每当有新的元素进来，都要重新计算方差与均值。
2.9
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。
参考网址：
https://blog.csdn.net/ludan_xia/article/details/81737669
2.10
在这里插入图片描述

周志华版机器学习第二章习题答案

猜你喜欢