scikit-learn用train_test_split随机划分数据集和训练集 - 代码天地

scikit-learn用train_test_split随机划分数据集和训练集

其他 2018-06-06 20:12:20 阅读次数: 0

train_test_split()函数是用来随机划分样本数据为训练集和测试集的，当然也可以人为的切片划分。

优点：随机客观的划分数据，减少人为因素

完整模板：

train_X,test_X,train_y,test_y = train_test_split(train_data,train_target,test_size=0.3,random_state=5)

参数解释：

train_data：待划分样本数据

train_target：待划分样本数据的结果（标签）

test_size：测试数据占样本数据的比例，若整数则样本数量

random_state：设置随机数种子，保证每次都是同一个随机数。若为0或不填，则每次得到数据都不一样

In [11]: from sklearn.model_selection import train_test_split
In [12]: import numpy as np
In [13]: X,y = np.arange(12).reshape(6,2),np.arange(6)
In [14]: X
Out[14]:
array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])
In [15]: y
Out[15]: array([0, 1, 2, 3, 4, 5])
In [16]: train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=0.3,random_state=
    ...: 17)
In [17]: train_X
Out[17]:
array([[ 8,  9],
       [ 0,  1],
       [10, 11],
       [ 2,  3]])
In [18]: train_y
Out[18]: array([4, 0, 5, 1])
In [19]: test_X
Out[19]:
array([[4, 5],
       [6, 7]])
In [20]: test_y
Out[20]: array([2, 3])

随机产生样本：

from sklearn.datasets import make_classification
X, y = make_classification(     #x 对应数据，y 对应标签(就是数据原本数字型的标签 或者 字符串的标签转换为数字型的标签)
        n_samples=2000,     #样本点
        n_features=20,     #特征维数 100个 特征
        n_classes=2,        #二维识别，二分类
        random_state=17)    #随机种子，每次随机数都一样

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,    #70%是训练集，30%测试集
                                                        random_state=17)        #一样的随机种子

利用sklearn的make_classification来随机产生一组样本数据，再用train_test_split来划分

猜你喜欢

转载自blog.csdn.net/qq_36523839/article/details/80280771

scikit-learn用train_test_split随机划分数据集和训练集

在python的Scikit-learn库中，可以使用train_test_split函数来划分训练集和测试集。

sklearn——train_test_split 随机划分训练集和测试集

【自用】 sklearn 用 train_test_split 简单划分训练和测试集

sklearn中train_test_split详解（数据集划分为训练集与测试集）

训练集测试集划分 train_test_split(X, y, stratify=y）

Sklearn-train_test_split随机划分训练集和测试集

sklearn.model_selection.train_test_split随机划分训练集和测试集

train_test_split 分割测试集训练集

用于拆分训练集和测试集的函数 train_test_split

数据集划分——train_test_split函数使用说明

sklearn数据集随机切分（train_test_split）

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

sklearn.model_selection.train_test_split划分训练集和测试集

机器学习代码实战——拆分训练集与测试集（train_test_split）

机器学习：训练集与测试集分割train_test_split

sklearn.model_selection.train_test_split划分训练数据集

train_test_split划分数据集时，数据类型的原因导致报错！！padas判断列类型，强制改变列类型，单独修改1列或者同时对多列进行修改！！！

用scikit-learn生成测试数据集

#拆分训练集和测试集 x_train, x_test, y_train, y_test = train_test_split 参数都是什么意思呢？

scikit-learn内置数据集

SciKit-Learn 加载数据集

机器学习 scikit-learn 数据集

08_sklearn数据集，数据集划分train_test_split，sklearn.datasets及其api，sklearn分类数据集，sklearn回归数据集，转换器与预估器

train_test_split

随机划分数据集

【Scikit-Learn 中文文档】随机投影 - 数据集转换 - 用户指南 | ApacheCN

莫烦scikit-learn学习自修第四天【内置训练数据集】

sklearn的train_test_split

train_test_split函数

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)