周志华《机器学习》第二章课后习题

2.1 数据集包含 1000 个样本,其中 500 个正例、 500 个反例,将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估,估算有多少种划分方式?

分析:本题是说明有留出法,留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集,在训练集上训练出模型后,用测试集来评估其测试误差,作为对泛化误差的估计。将其划分为包含 70% 样本的训练集和 30% 样本的测试集,训练集中应该包括350个正例和350个反例,剩余的作测试集。

答:排列组合求解,如果是要求训练/测试集的划分要尽可能保存数据分布一致。划分方式种。

2.2 数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

分析:10折交叉验证法把数据集划分为10份,9个训练集,1个测试集。

           假定数据集D中包含m个样本,若令k=m,则得到了交叉验证法的一个特例:留一法。留一法不受随机样本划分方式的影响。因为m个样本只有唯一的方式划分为m个子集,每一个子集包含一个样本;留一法使用的训练集与初始数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估的模型与期望评估的用D训练出的模型很相似.因此,留一法的评估结果往往被认为比较准确.然而,留-一法也有其缺陷:在数据集比较大时,训练m个模型的计算开销可能是难以忍受的(例如数据集包含1百万个样本,则需训练1百万个模型),而这还是在未考虑算法调参的情况下.另外,留一法的估计结果也未必永远比其他评估方法准确;“没有免费的午餐”定理对实验评估方法同样适用.

10次10折交叉验证法:

答:10折交叉验证法:数据集分为10份,每一份是10,剩下9份是90个样本,正反例各占45个,结果判断为正反例的概率也是一样的,所以错误率的期望是50%。 

留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;反之,留下的是正例,训练样本中正例的数目比反例多一个,所以留出的样本会被判断是正例。所以这样的话错误率为100%。

2.3 若学习器A的 F1值比学习器B高,试析A的BEP值是否也比B高?

分析:F1与BEP都是对于模型的性能度量。BEP是平衡点,它是“查准率=查全率”时的取值。如图2.3所示:

对于F1度量: 

对应这个公式: 

 答:所以不一定,二者关联度不大。F1是由P和R确定的,此时的阈值应该是确定的,但是P和R却不一定相等,只有P和R相等时才有BEP这个概念。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

真正例率TPR= TP / (TP + FN),实际正例中的真正例的概率。
假正例率 FPR = FP / (FP + TN),实际反例中被预测为正例的概率。
查准率 P = TP / (TP + FP),预测正例中的真正例的概率。
查全率 R = TP / (TP + FN),查全率等于真正例率,即实际正例中被预测为正例的概率。
查全率越大,查准率往往越低;查准率越高,查全率往往越低,从P-R图中可以看出。

 2.5 试证明式(2.22).

先不证了。

2.6 试述错误率与 ROC 曲线的联系.

 答:错误率是在阈值固定的情况下得出的,ROC曲线是在阈值随着样本预测值变化的情况下得出的。ROC曲线上的每一个点,都对应着一个错误率。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然

首先“任意一条ROC曲线都有一条代价曲线与之对应”,显然ROC曲线上每个点(FPR,TPR)都对应着下图中一条线段,取所有线段的下届,即可得到唯一的代价曲线。

反之,代价曲线实际上是一个多边形(在有限样本下),易理解,每条边都对应代价平面上一条线段,实际上从左向右遍历每一条边,即可得到ROC曲线上从左到右每一个点。

ps. ROC曲线对应着唯一条代价曲线,但是一条代价曲线可对应着多条不同的ROC曲线,如上图中,在绿、黄、蓝三条线段交于红点时,此时去掉黄色线段代价曲线是不会发生变化的,但是ROC曲线则会少一个点。

 2.82.8

 答:答案来自网络。

Min-max规范化是 (X - Xmin) / (Xmax - Xmin),将结果映射到[0,1]之间,叫做归一化,应该就是把这个式子里的X’max设置为1,X’min设置为0,所以规范化后的取值范围是[X’min,X’max];而z-score规范化被叫做标准化,最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。

Min-max 规范化
优点:  计算相对简单一点。当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。
缺点:  容易受高杠杆点和离群点影响。
z-score 规范化
优点: 对异常值敏感低。
缺点:
3. 计算更负责。
4. 每次新样本进来都需要重新计算规范化。
Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。 z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。

2.9.试述卡方检验过程

  答:

                1)分均值已知与均值未知两种情况,求得卡方检验统计量

                2)根据备选假设以及α,求得所选假设的拒绝域

                3)根据求得的拒绝域,,看是否落于区间,判断假设成立与否。

 2.10 试述在Friedman 检验中使用式(2.34) (2.35) 的区别.

 还需要学习。

猜你喜欢

转载自blog.csdn.net/qq_40694323/article/details/125349305