数据集的训练集和测试集划分

其他 2018-12-26 12:50:03 阅读次数: 0

数据集的训练集和测试集划分

留出法（hold-out）

留出法，直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ，另一个作为测试集 $T$ ，一般做法是将2/3~4/5的样本作为训练集，其余部分作为测试集；

在使用留出法时，一般采用多次随即划分、重复进行实验评估后，取平均值作为留出法的评估结果。

交叉验证法（cross validation）

交叉验证法，或 $k$ 折交叉验证法(k-fold cross validation)，先将数据集 $D$ 划分为大小相似的 $k$ 个互斥子集，然后进行 $k$ 次实验，每次实验使用 $k-1$ 个子集作为训练集，剩下的1个子集作为测试集，其中，每个子集都作为测试集进行过一次实验；

在使用交叉验证法时，通常要随机使用不同划分重复 $p$ 次，最终的评估结果是 $p$ 次 $k$ 折交叉验证结果的平均值。

例如，10次10折交叉验证法，进行了100次实验。

特别地，当 $k=m$ 时（ $m$ 为样本数）， $k$ 折交叉验证法，即为留一法（Leave-one-out），此方法只有一种划分子集的划分方式，即每个子集包含一个样本。

自助法（bootstrapping）

自助法，对于包含 $m$ 个样本的数据集 $D$ ，每次随机抽取一个样本作为训练样本，又放回地抽取，执行 $m$ 次抽取操作，得到训练样本集，剩余部分则为测试集；

当m趋于无穷时，样本在测试集中出现的概率趋于 $1/e$ ，即约0.368，如下面公式所示：
$\lim_{m \to \infty} \big(1-\frac{1}{m}\big)^m=\frac{1}{e}$
自助法适用于数据集较小，难以有效划分训练集和测试集的情况；

自助法产生的数据集改变了初始数据集的分布，引入了估计偏差；

因此，在数据量足够的情况下，一般使用留出法或交叉验证法。

注意事项

测试集至少包含30个样例；

测试集/训练集划分时，要尽可能保持数据分布的一致性，例如，分类任务中保持样本类别比例相似（分层采样，stratified sampling）。

猜你喜欢

转载自blog.csdn.net/kuaizi_sophia/article/details/84883704

数据集的训练集和测试集划分

如何把数据集划分成训练集和测试集

将数据集划分为训练集和测试集

python划分训练集和测试集

训练集和测试集划分方法

随机划分训练集和测试集

机器学习数据集（训练集、测试集）划分方法

训练集，测试集和验证集划分的意义

【划分训练集、验证集和测试集(xml版本)】

训练集、验证集、测试集的划分

目标检测数据集划分训练集和验证集

学习笔记：使用python将数据集划分成测试集和训练集

怎么为小数据集划分训练集和测试集

数据集划分为训练集和测试集并生成标签--matlab代码

YOLOv5目标检测（数据集格式转换并划分训练集和测试集）

【自存代码】划分数据集为训练集和测试集

机器学习之数据集划分——训练集测试集划分，划分函数，估计器的使用

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

利用sklearn划分训练集和测试集

机器学习数据挖掘数据集划分训练集验证集测试集

机器学习：训练集与测试集的划分

机器学习数据集划分训练集验证集测试集

机器学习数据集划分-训练集，验证集，测试集

【yolov5】数据集制作：划分训练集、验证集、测试集

VOC类型数据集划分为训练集、验证集、测试集

YOLO 划分数据集（训练集、验证集、测试集）

将数据划分为训练集和测试集；缩放特征区间

python实现对于数据集的划分（随机划分出训练集和验证集）

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

将标注好的yolo格式数据集划分为yolov5所适用的训练集和测试集

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)