学习笔记：使用python将数据集划分成测试集和训练集 - 代码天地

学习笔记：使用python将数据集划分成测试集和训练集

其他 2018-08-16 22:50:56 阅读次数: 0

遇到一个划分数据集的问题，所以手动仿照sklearn库的划分函数写了一个函数。

环境：Windows 7，PyCharm，Python 3.6，numpy1.14.2+mkl

调用sklearn库的划分函数如下

其中train_data为训练输入的数据，train_target为数据类别，test_size为测试集占数据集的比例，random_state为随机数种子

from sklearn.model_selection import train_test_split
x_train,x_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.3, random_state=0)

第一条语句是导入sklearn库中的train_test_split函数的语句，第二条是划分语句。

除numpy外不调任何函数库的手写版

#将数据集按比例随机分为训练集和测试集
def trainTestSplit(trainingSet, trainingLabels, train_size):
    totalNum = int(len(trainingSet))
    trainIndex = list(range(totalNum))#存放训练集的下标
    testIndex = []  #用于存放测试集的下标
    x_test = []     #存放测试集输入
    y_test= []      #存放测试集输出
    x_train = []    #存放训练集输入
    y_train = []    #存放训练集输出
    trainNum = int(totalNum * train_size) #划分训练集的样本数
    for i in range(trainNum):
        randomIndex = int(random.uniform(0,len(trainIndex)))
        x_test.append(trainingSet[randomIndex])
        y_test.append(trainingLabels[randomIndex])
        del(trainIndex[randomIndex])#删除已经放入测试集的下标
    for i in range(totalNum-trainNum):
        x_train.append(trainingSet[trainIndex[i]])
        y_train.append(trainingLabels[trainIndex[i]])
    #column_stack将两个矩阵进行组合连接
    train = column_stack([x_train, y_train])
    test = column_stack([x_test, y_test])
    #将分类好的数据集分开保存，分隔符为，
    savetxt('train.txt', train, delimiter=',')
    savetxt('test.txt', test, delimiter=',')
    return x_train, x_test, y_train, y_test

这几天才刚学的Python，写的代码可能有很多不足的地方。比如，测试集和训练集中，没有考虑样本标签的比例等等

所以，能调库还是调库吧......

参考博客 https://blog.csdn.net/xidianliutingting/article/details/53463033?locationNum=6&fps=1

https://blog.csdn.net/u010801439/article/details/79555857

猜你喜欢

转载自blog.csdn.net/folk_/article/details/80208557

学习笔记：使用python将数据集划分成测试集和训练集

如何把数据集划分成训练集和测试集

将数据集划分为训练集和测试集

python 把数据分成训练集和测试集

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

python划分训练集和测试集

机器学习之数据集划分——训练集测试集划分，划分函数，估计器的使用

【深度学习】使用python划分数据集为训练集和验证集和测试集并放在不同的文件夹(转载)

python 机器学习划分训练集/测试集/验证集

机器学习数据集（训练集、测试集）划分方法

深度之眼Pytorch打卡（六）：将数据集切分成训练集、验证集和测试集的方法

数据集的训练集和测试集划分

Python读取csv数据文件，并按照指定比例划分为机器学习使用的训练集和测试集

深度学习之数据处理——如何将图片和标签打乱并划分为训练集和测试集

【学习笔记】训练集和测试集

机器学习：训练集与测试集的划分

python实现划分机器学习训练集与测试集

训练集和测试集划分方法

随机划分训练集和测试集

将数据划分为训练集和测试集；缩放特征区间

机器学习数据挖掘数据集划分训练集验证集测试集

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

机器学习数据集划分训练集验证集测试集

机器学习数据集划分-训练集，验证集，测试集

将标注好的yolo格式数据集划分为yolov5所适用的训练集和测试集

PyTorch学习笔记（18）--划分训练集和测试集的脚本

python 中任务 6.1 使用sklearn 转换器处理数据(划分训练集,测试集,PCA降维) 学习笔记1

Python将样本划分为训练集/验证集/测试集

训练集，测试集和验证集划分的意义

【划分训练集、验证集和测试集(xml版本)】

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)