sklearn学习：train_test_split - 代码天地

sklearn学习：train_test_split

其他 2018-07-06 14:04:45 阅读次数: 0

train_test_split 是sklearn中一个用来随机分割train，test数据集的工具

sklearn.model_selection.train_test_split(*arrays, **options)[source]

需要注意的参数包括，

1. test_size

test_size的参数类型可能有多种：
如果为float型，需要介于0.0到1.0之间，表示要分割在测试数据集中的比例；
如果为int型，表示测试数据集的绝对数量；
如果为None，默认为训练数据集的补集。

当未指定train_size时，默认值为0.25。

2.stratify

stratify的参数类型：array-like or None， and default is None
如果不是None，则数据以分层方式分割，将其用作类标签。

3.random_state

random_state的参数类型：int, RandomState instance or None, optional, default is None
如果是int，random_state是随机数生成种子；
如果是RandomSate实例，random_state是随机数生成器；
如果为None，则随机数生成器是np.random使用的RandomState实例。

控制random_state的意义在于，如不确定，random_state值在每次运行时可能是不一样的，为防止每一次修改其他变量，运行结果被不同的random_state值影响，可以控制该变量。

official example:

import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
print('x:',X,'\n')

print('list(y):',list(y),'\n')

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

print('x_train:',X_train,'\n')
print('y_train:',y_train,'\n')
print('X_test:',X_test,'\n')
print('y_test:',y_test,'\n')

# if shuffle=False
y_new_train,y_new_test = train_test_split(y, shuffle=False)
print('y_new_train',y_new_train,'\n')
print('y_new_test',y_new_test,'\n')

output:
x: [[0 1]
[2 3]
[4 5]
[6 7]
[8 9]]

list(y): [0, 1, 2, 3, 4]

x_train: [[4 5]
[0 1]
[6 7]]

y_train: [2, 0, 3]

X_test: [[2 3]
[8 9]]

y_test: [1, 4]

y_new_train [0, 1, 2]

y_new_test [3, 4]

official document：
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

猜你喜欢

转载自blog.csdn.net/ninnyyan/article/details/80567099

sklearn学习：train_test_split

sklearn的train_test_split

机器学习sklearn中的train_test_split()函数

1)sklearn学习之train_test_split

关于sklearn中train_test_split

sklearn的train_test_split函数

Sklearn的train_test_split用法

Sklearn train_test_split参数详解

train_test_split

sklearn的train_test_split的random_state

sklearn的train_test_split函数的random_state

deep_learning_Function_sklearn的train_test_split()

sklearn中train_test_split()函数用法

sklearn.model_selection中train_test_split的坑

机器学习中 from sklearn.cross_validation import train_test_split出错

from sklearn.cross_validation import train_test_split，train_test_split下出现红色波浪线

train_test_split函数

关于train_test_split

笔记——Train_test_split

python中的train_test_split方法

python中train_test_split()

train_test_split 参数详解

train_test_split用法总结

【自用】 sklearn 用 train_test_split 简单划分训练和测试集

sklearn.model_selection import train_test_split 概述、参数说明及用法

关于 from sklearn.model_selection import train_test_split 中的random_state参数

sklearn——train_test_split 随机划分训练集和测试集

sklearn数据集随机切分（train_test_split）

sklearn.model_selection 中 train_test_split 概述、参数说明及用法

sklearn的train_test_split()各函数参数含义解释（非常全）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)