用python将一个数据文件分为训练集和测试集 - 代码天地

用python将一个数据文件分为训练集和测试集

其他 2018-10-06 19:59:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Albert201605/article/details/82319437

以鸢尾花数据集(iris dataset)为例，将其按7:3的比例随机划分为训练集和测试集。

iris数据集下载：https://download.csdn.net/download/albert201605/10640837

代码及说明如下（将数据文件与程序文件置于同一目录下）：

#【导入相应的库（对数据库进行切分需要用到的库是sklearn.model_selection 中的 train_test_split）】
import numpy as np
from sklearn.model_selection import train_test_split

#【首先，读取.CSV文件成矩阵的形式。】
#若标签为浮点，直接使用下面一行即可
#data = np.loadtxt(open("iris.csv"),delimiter=",",skiprows=0)

##--------------------【若标签为Striing,先将标签转化为浮点型】------------------------------
def iris_type(s):
    class_label={b'Iris-setosa':0,b'Iris-versicolor':1,b'Iris-virginica':2}
    return class_label[s]

#使用numpy中的loadtxt读入数据文件（csv格式的iris数据，也可直接换成txt格式）
filepath='iris_data.csv'  # 数据文件路径
data=np.loadtxt(filepath,dtype=float,delimiter=',',converters={4:iris_type})
##-------------------------------------------------------------------------------------

#【将矩阵最后一列之前的数值给X（输入数据），将矩阵最后一列的数值给y（标签）】
X, y = data[:,:-1],data[:,-1]

#【利用train_test_split方法，将X,y随机划分为训练集（X_train），训练集标签（y_train），测试集（X_test），测试集标签（y_test），按训练集：测试集=7:3的概率划分，到此步骤，可以直接对数据进行处理】
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#【将训练集与数据集的数据分别保存为CSV文件】
#np.column_stack将两个矩阵进行组合连接，numpy.savetxt 将txt文件保存为csv格式的文件
train= np.column_stack((X_train,y_train))
np.savetxt('train_set.csv',train, delimiter = ',')

test = np.column_stack((X_test, y_test))
np.savetxt('test_set.csv', test, delimiter = ',')

参考：

1. https://blog.csdn.net/u010801439/article/details/79555857

2. http://www.cnblogs.com/shenxiaolin/p/8854838.html

猜你喜欢

转载自blog.csdn.net/Albert201605/article/details/82319437

用python将一个数据文件分为训练集和测试集

Python读取csv数据文件，并按照指定比例划分为机器学习使用的训练集和测试集

将数据集划分为训练集和测试集

Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集

R语言批量读入数据文件到一个数据集

将数据划分为训练集和测试集；缩放特征区间

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

将标注好的yolo格式数据集划分为yolov5所适用的训练集和测试集

将数据集分为训练集和验证集存放在新的文件夹中

Python将样本划分为训练集/验证集/测试集

如何将原始数据集分为训练集与测试集

深度学习之数据处理——如何将图片和标签打乱并划分为训练集和测试集

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

数据集划分为训练集和测试集并生成标签--matlab代码

学习笔记：使用python将数据集划分成测试集和训练集

将数据集按一定比例9：1变成训练集和测试集

计算一个数据集的mean和std

python交叉验证以及将全部数据分类训练集和测试集（分类）

VOC类型数据集划分为训练集、验证集、测试集

【Python那些事儿】准备数据——训练集和测试集

python 把数据分成训练集和测试集

帆软将一个数据集的结果作为另一个数据集的查询条件

python划分训练集和测试集

Python分割训练集和测试集

sklearn中train_test_split详解（数据集划分为训练集与测试集）

把原始图片随机分为训练集验证集测试集

用python程序按比例划分数据集(训练集+测试集)

利用keras框架搭建一个简单CGAN模型，制作一个数据集用作训练

「机器学习速成」为什么要拆分为三个集：训练集、验证集、测试集

深度之眼Pytorch打卡（六）：将数据集切分成训练集、验证集和测试集的方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)