模型评估流程

其他 2020-03-25 09:45:22 阅读次数: 0

测试误差作为泛化误差的近似
先使用某种评估方法得到训练集和测试机
再使用分类器分的样本中的正例和负例
然后计算评估指标，判断分类器好坏

1、评估方法之训练集和测试集的确定

留出法:

直接将数据集划分为两个互斥集合
训练集和测试集的划分要尽可能保持数据分布的一致性
一般若干次随即划分、重复实验取平均值
训练样本和测试样本的比例:2-1\3-1\4-1
只一次，随机性太大，说服力不强

k折交叉验证:

将数据集分为k个大小相同或者相似的互斥的子集
每次使用k-1个子集为训练集，1个为测试集
k通常取10
为了减少因样本划分不同而引入的误差
通常随机使用不同的划分重复p次
最终的结果是p次k折交叉验证的均值
通常p = k = 10

留一法:

k折的特例:即将所有数据集作为训练集，仅用1个数据(而不是1个子集)作为测试集
优点: 没有随机因素，具有确定性
缺点:

时间开销太大
遇到有类别划分的数据集，仅一个数据不能体现所有特征

因此，当数据集比较小的时候，用留一法比较好。
一般使用k折法

自助法:

以自主采样法为基础，对数据集D有放回采样m次得到训练集D‘
剩下的为测试集
约有3/1的样本没有出现在训练集中（有一些数据被重复选择进入了训练集）
可以产生多个不同的训练集
在数据集较小、难以有效划分训练、测试集时很有用
但由于改变了数据集分布可能引入估计误差，所有数据集很大的时候，留出和k折更常用

2、评估指标

在这里插入图片描述

如何确定正例和负例？-——分类器

根据分类器的概率预测结果，对样本进行排序，然后选择截断点，确定正例负例
具体分类器:补充

判断分类器性能的各种指标:

准确率和错误率：

将每个类看得同等重要，不适合类不平衡的数据集

精确率P和召回率R:

P = TP/(TP+FP)（预测为正例中实际是正例的比例）
R = TP/(TP+FN)（所有实际正例中，预测对的比例）
两者往往互斥
为了综合考虑，提出F1度量
F1 = 2PR/(P+R) = 2*TP/(总数+TP-TN)
或者调整参数得到Fβ：在这里插入图片描述
越高越好

ROC曲线:

真正率TPR = TP/(TP+FN)(被判断为正例的正样本比例) = 召回率（纵轴）
假正率FPR = FP/(FP+TN)(被误判为正例的负样本比例) （横轴）
比较曲线与横轴形成的面积大小(AUC，Area Under Curve)，越大越好
AUC

在这里插入图片描述 AUC越大越好
显然:因为n0、n1不变，当所有反例排在最后时，最大，AUC最大。

条件似然CLL

在这里插入图片描述

3、比较检验

因为:

测试性能不等于泛化性能
测试性能会随着测试集的变化而变化
很多机器学习算法本身有一定的随机性

所以，比较相应评估方法、相应分类器下的相应指标并不可取

成对双边t检验:

假设评估方法采用的是:k折交叉验证法在这里插入图片描述

Frienman检验

在一组数据集上比较k个分类器
采用留出法或k折交叉检验，得出一组数据上各个分类器的平均值，利用概率统计的只是判断性能。
如果多个分类器性能不一致，要进一步使用Nemenyi检验。

Nemenyi后续检验

Turkey分布？？？
重新学一下置信度
F检验的统计量、F分布的临界值查表、临界值、大于则拒绝、两者平均序值之差<CD则两者性能差不多、若差不多则平均序值小的性能高、

Frienman检验图

谁的铁王座

发布了45 篇原创文章 · 获赞 0 · 访问量 998

私信关注

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/104552582

模型评估流程

大语言模型评估全解：评估流程、评估方法及常见问题

模型评估

模型评估：模型状态评估

模型评估与模型选择

一文详解DCMM（数据管理能力成熟度评估模型）贯标评估全流程

风险评估实施流程

模型评估标准

模型的评估与选择

模型评估小结

模型评估方法

[转]R 模型评估

模型评估总结

语言模型评估与类别

模型建立与评估

软件质量评估模型

Redis容量评估模型

分类模型评估指标

分类模型评估方法

分类模型评估

评估深度学习模型

回归模型的评估指标

模型评估与选择

逻辑回归及模型评估

模型评估的指标

分类模型的评估（三）

模型评估与选择（一）

分类模型评估——func()

分类模型的评估（二）

分类模型的评估（一）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)