机器学习：模型评估与选择-数据集划分 - 代码天地

机器学习：模型评估与选择-数据集划分

其他 2018-05-31 09:39:37 阅读次数: 0

通过学习得到的一个学习器，我们要知道它的泛化性能，即面对新的数据，算法产生的结果好不好。显然，我们不能用使用过的数据进行评估。所以，对于手里有限的数据集，我们要进行划分，划分为训练集和测试集，测试样本尽量不在训练集中出现，训练集用来训练模型，测试集用来评估模型的性能。这里介绍3种划分方法。

1、留出法

数据集D划分为训练集S和测试集T，D=S并T,S交T=空集。如1000个数据集，500个正样本，500个负样本，700个作为训练集（350个正样本，350个负样本），300个作为测试集（150个正样本，150个负样本），注意数据划分时数据分布尽量一致，例如在分类任务中，样本的类别比例相似。不同的划分，模型评估的结果也会有差别，所以一般会进行若干次随机划分，最后取平均值。

2、交叉验证法

如把数据集划分为10个大小相似的互斥子集，每次用9个作为训练集，剩下的1个作为测试集，则可以进行10次训练和测试，最后返回10次测试结果的均值，称为10折交叉验证。为减小样本的不同划分引入的差别，通常随机使用不同划分重复p次，如10次，则可称为“10次10折交叉验证”。

3、自助法（改变了初始数据集的分布，会引入估计偏差）

每次从数据集D中挑选一个样本拷贝进D'，然后将该样本放回D中，在下次采样仍然可能被采样到。重复执行m次则得到包含m个样本的数据集D'，样本在m次采样中始终不被采样到的概率为（1-1/m）^m，取极值得1/e,约为0.368，即D中约有36.8%的样本未出现在采样集D'中，我们可将D'作为训练集，D-D'作为测试集。

自助法在数据集较小时比较有用，数据集足够时，留出法和交叉验证法更常用

猜你喜欢

转载自blog.csdn.net/weixin_35732969/article/details/80451050

机器学习：模型评估与选择-数据集划分

深入理解机器学习——机器学习模型数据集的划分与模型评估方法

【Surprise库学习】1. 模型选择与评估（划分数据集）

机器学习理论笔记（二）：数据集划分以及模型选择

机器学习-模型评估与选择

《机器学习》模型评估与选择

机器学习模型的评估与选择

机器学习模型评估与选择

机器学习——模型评估与选择

机器学习模型评估与选择

机器学习数据挖掘——模型评估与选择2

机器学习中模型评估与选择，数据相关问题

金融机器学习：数据集划分与baseline模型

机器学习笔记-模型评估与模型选择

如何进行机器学习模型的训练和评估？如何划分训练集、验证集和测试集？

机器学习数据集的划分

sklearn模型选择--数据集的划分

机器学习之一：模型评估与选择

机器学习——2模型评估与选择

机器学习模型的评估和选择

机器学习基础——模型参数评估与选择

机器学习模型评估与选择1

机器学习中的模型评估与选择

机器学习模型评估、选择与验证

机器学习——模型选择和评估方法

机器学习笔记(二)模型评估与选择

机器学习之模型选择和评估

【机器学习123】模型评估与选择 (上)

机器学习之模型评估与选择

机器学习笔记：模型评估与选择

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)