2.模型评估

模型评估

1. 过拟合和欠拟合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QBxfCRGn-1615348716069)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308102745943.png)]

2. 评估方法-性能评估

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N5e3PAwV-1615348716072)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308103234054.png)]

测试误差也叫经验误差,指的是在测试集上预测结果和实际结果上的误差。

测试误差越接近泛化误差越好。

3. 数据集产生方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K1JMHtj0-1615348716074)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308103503411.png)]

3.1 留出法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2N16SNx5-1615348716076)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308103606034.png)]

错误率:测试集上错误的个数 / 测试集总个数 * 100%

缺点:样本分布不均匀导致的误差很大

3.2 交叉验证法(常用)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hl12fJ5L-1615348716077)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308104319496.png)]

扫描二维码关注公众号,回复: 13000553 查看本文章

通常情况下把数据集划分k个子集:(10个/20个),进行p次试验。

优点:减少了样本划分不均匀的误差、多次试验准确率高

3.2.1 特例:留一法

留一个数据作为测试集,其余的作为训练集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MjL5V5hk-1615348716079)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308104640815.png)]

3.3 自助法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gUjf2QRJ-1615348716080)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308105007009.png)]

4. 性能度量-评估指标

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YpVscC1Y-1615348716081)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308105752210.png)]

4.1 以分类任务为例:

一般用正确率和错误率评估

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YS9w9KGV-1615348716082)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308105810815.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DvP9RaQF-1615348716083)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308105823693.png)]

正确则当前为1,一共有m个测试样例,所以理想情况下共有m个1,则正确率即1 / m。

错误率 = 1 - 正确率。

不同的情形下:一般要综合其他因素,所以评估指标不唯一。

4.2 以回归任务为例:

一般用均方误差评估

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZeUvOfpd-1615348716084)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308110416761.png)]

5. 类不平衡数据集和特殊需求

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eQddHABe-1615348716085)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308111710456.png)]

在特殊需求下,正确率错误率并不能描述模型好坏。这种情况下就出现了查全率和查准率

5.1 差准率、查全率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e5aIj5WX-1615348716086)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308112200314.png)]

查准率下降的时候,查全率会上升

例子:查出来好瓜:查准率(因为你检验的是好瓜中多少是真正的好瓜)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3iSLMezl-1615348716087)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308112733757.png)]

到底以哪个(查全/准率)为标准?

5.1.1 方法一:使用平衡点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I9piOlPM-1615348716087)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113335611.png)]

5.1.2 方法二:F1度量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-94eg9OGY-1615348716088)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113434872.png)]

5.1.3 方法三:ROC曲线

用于:很多个方法进行比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kSUwpmVY-1615348716088)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113608975.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B0NI2TcL-1615348716089)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113625761.png)]

真正率和查全率一致

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IZmM69tq-1615348716089)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113844858.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1jGdA11A-1615348716090)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308113816343.png)]

6. 比较检验

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-djOMps8o-1615348716091)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308114216079.png)]

7. 假设检验

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGP1llUI-1615348716091)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308114517323.png)]

在测试集上 A比B性能好,我们想要评估统计意义上A与B哪个好。

(对测试误差与泛化误差的校验)

7.1 成对双边t检验

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TlBbwMSt-1615348716092)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308114725542.png)]

u是均值,6是方差(两个算法训练误差之差的均值和方差)

右边表是查询临界值查询表

7.2 Friedman检验和Nemenyi后续检验

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cr9GE5Gk-1615348716093)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308115221107.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jiOhnmf3-1615348716094)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308115320480.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MobcK6xl-1615348716095)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308115509997.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vd2Pzt9s-1615348716096)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308115656343.png)]

15348716093)]

[外链图片转存中…(img-jiOhnmf3-1615348716094)]

[外链图片转存中…(img-MobcK6xl-1615348716095)]

[外链图片转存中…(img-vd2Pzt9s-1615348716096)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K8bPaIK4-1615348716097)(C:\Users\LENOVO\Desktop\学习笔记\ML\assets\image-20210308115902608.png)]

猜你喜欢

转载自blog.csdn.net/qq_49821869/article/details/114632014