sklearn.model_selection中train_test_split的坑

企业开发 2023-09-08 17:27:38 阅读次数: 0

坑

无论是做机器学习还是深度学习，有个叫做数据集的东西不可忽视，有时候数据集的好坏会影响最后学习的效果。特别是没有现成处理好的数据集时需要我们自己动手搜集整理得到训练和测试的数据集。
我在处理数据集的时候喜欢把数据放在一个列表，label放在一个一个列表，然后利用sklearn.model_selection中的train_test_split函数来分割得到训练集和数据集。该函数的具体返回值和用法如下：

train_x,test_x,train_y,test_y = train_test_split(datas,labels,test_size=0.3,random_state=42)

datas:为数据集
labels：为数据集对应的分类
test_size:测试集占所有数据的比例
random_state:具体作用暂时未知（我踩的坑可能和它有关，后面写代码测试一下）

from sklearn.model_selection import train_test_split
import numpy as np
class0 = ['a','b','c','d','e']
label_0 = np.zeros(len(class0))
class1 = ['1','2','3','4','5']
label_1 = np.ones(len(class1))

datas = np.hstack((class0,class1))
labels = np.hstack((label_0,label_1))

#这是我的用法
train_x,test_x,train_y,test_y = train_test_split(datas,labels,test_size=0.3)
print(train_x)
print(test_x)
print(train_y)
print(test_y)

#测试一下参数random_state=42
train_x,test_x,train_y,test_y = train_test_split(datas,labels,test_size=0.3,random_state=2)
print(train_x)
print(test_x)
print(train_y)
print(test_y)

通过代码测试，我踩的坑果然和random_state这个参数有关，当忽略这个参数时每次运行得到两个分组都是随机的，每次可能都不一样，当设置random_state之后多次运行的分组结果相同。在网上看都让random_state=42，具体不知为啥，有兴趣可以探究一下，我把它设为2得到的结果也不发生变化。

作为一个严谨的我怎么能容忍不知道这个random_state是为啥呢？所以我就去查了一下。
当random_state=1，会生成一组随机数
当random_state=2, 会生成另一组随机数
。。。
这个是一一对应的，random_state=1,就固定得到那组随机数。

猜你喜欢

转载自blog.csdn.net/qq_25105061/article/details/108009963

sklearn.model_selection中train_test_split的坑

关于 from sklearn.model_selection import train_test_split 中的random_state参数

sklearn.model_selection 中 train_test_split 概述、参数说明及用法

train_test_split()是sklearn.model_selection中的分离器函数

sklearn.model_selection import train_test_split 概述、参数说明及用法

关于sklearn中train_test_split

sklearn.model_selection.train_test_split

sklearn的train_test_split

机器学习sklearn中的train_test_split()函数

sklearn中train_test_split()函数用法

sklearn.model_selection.train_test_split使用

【模型评估与选择】sklearn.model_selection.train_test_split

sklearn.model_selection.train_test_split 用法

sklearn学习：train_test_split

sklearn的train_test_split函数

Sklearn的train_test_split用法

Sklearn train_test_split参数详解

train_test_split

python中的train_test_split方法

python中train_test_split()

sklearn中sklearn.model_selection的应用与实践

sklearn中train_test_split函数中的random_state有什么用？

sklearn的train_test_split的random_state

sklearn的train_test_split函数的random_state

deep_learning_Function_sklearn的train_test_split()

1)sklearn学习之train_test_split

机器学习中 from sklearn.cross_validation import train_test_split出错

sklearn中train_test_split里，参数stratify含义解析

sklearn中train_test_split详解（数据集划分为训练集与测试集）

sklearn.model_selection.train_test_split划分训练集和测试集

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)