数据集划分：交叉验证 - 代码天地

数据集划分：交叉验证

其他 2020-05-22 10:44:56 阅读次数: 0

一、简单划分：数据集：测试集=7：3

问题：

1）.没有充分的利用数据集；

2）.回归问题中的MSE（mean square error）受到划分比例的影响，导致最终模型的最优参数选择也受到划分比例的影响。

【图来源：https://zhuanlan.zhihu.com/p/24825503?refer=rdatamining】

右侧是10种数据集划分方法得到的"不同阶次的多项式模型—均方差"图

可以看到，不同的数据集划分方式，达到最小MSE的多项式模型是不同的，所以这种“一刀切”的简单数据集划分方法不够合理。

二、LOOCV（leave-one-out cross validation）

每次选取1个样本作为测试样本，其余n-1个作为训练样本。若为回归模型，分n次进行MSE计算，最终MSE取均值。

优点：不受数据集划分方法的影响；

缺点：计算量太大，计算成本是简单划分的n-1倍。

三、k折交叉验证（k-fold cross validation）

1.k取值：

一般取k=5~10；

考虑k对bias（可表征模型对样本的拟合精度）和variance（可表征模型泛化能力）的影响，k越大，bias越小，variance越大；k越小，bias越大，variance越小。所以为了平衡bias和variance，一般选取k=5~10。【bias大，模型欠拟合，variance大，模型过拟合，所以k的选取关系到模型的欠拟合和过拟合】

2.k折交叉验证含义：

若k=5，将数据集分成5份，每次取1份作为测试集，其余4份作为训练集。若为回归模型，分5次进行MSE计算，最终MSE取均值。

若为分类模型，分五次进行错分类统计，最终错分类个数取均值。

【Erri是第i组测试集中错分类的个数。】

3.k-fold CV 优点

兼具简单划分和LOOCV的优点：不受数据集划分方法的影响（LOOCV）；且计算量小（简单划分）

4.k-fold CV 精度

【图来源：https://zhuanlan.zhihu.com/p/24825503?refer=rdatamining】

图中，红线代表k折验证，黑色虚线代表LOOCV。【LOOCV可看作k=N的交叉验证】

参考资料：

1.机器学习：交叉验证详解，https://zhuanlan.zhihu.com/p/24825503?refer=rdatamining，作者：文兄

猜你喜欢

转载自www.cnblogs.com/feynmania/p/12935492.html

数据集划分：交叉验证

数据集的划分与交叉验证

交叉验证——对数据集的划分

机器学习-交叉验证 : python数据集划分

机器学习：数据集划分(包含交叉验证)

机器学习中数据训练集，测试集划分与交叉验证的联系与区别（含程序）

Cross-validation 交叉验证与训练集测试集划分

留出法、K折交叉验证、留一法进行数据集划分

python 划分训练集——K折交叉验证

机器学习：验证数据集与交叉验证

数据划分测试、验证集，文件转移

机器学习中数据的划分，N折交叉验证

目标检测数据集划分训练集和验证集

Cross-validation 交叉验证与训练集测试集划分（转）

训练数据集和交叉验证数据集的分割方法

8-6 验证数据集及交叉验证

python实现对于数据集的划分（随机划分出训练集和验证集）

【Python学习】 - sklearn学习 - 数据集分割方法 - 随机划分与K折交叉划分与StratifiedKFold与StratifiedShuffleSplit

机器学习数据挖掘数据集划分训练集验证集测试集

用MNIST数据集实现K-折交叉验证

用MNIST数据集实现简单交叉验证

机器学习数据集划分训练集验证集测试集

机器学习数据集划分-训练集，验证集，测试集

【yolov5】数据集制作：划分训练集、验证集、测试集

VOC类型数据集划分为训练集、验证集、测试集

YOLO 划分数据集（训练集、验证集、测试集）

训练集、验证集、测试集的划分

【猫狗数据集】划分验证集并边训练边验证

pandas.DataFrame.sample函数抽样划分Pascal voc数据训练集验证集测试集

目标检测---数据集格式转化及训练集和验证集划分

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)