Python读取csv数据文件，并按照指定比例划分为机器学习使用的训练集和测试集 - 代码天地

Python读取csv数据文件，并按照指定比例划分为机器学习使用的训练集和测试集

其他 2018-05-30 10:07:12 阅读次数: 1

在使用机器学习等算法模型的时候，往往都会需要将数据加载到内存中才能够使用，对于原始数据我们往往需要按照一定的数据划分比例划分为测试集和训练集，如果想直接使用交叉验证来进行评估的话则不需要数据划分这个步骤。

正好最近在做这方面的东西，写一个简单的小函数实现数据的读取与划分功能，下面是具体的实现：

def read_data(test_data='features.csv',n=1,label=1):
    '''
    加载数据的功能
    n:特征数据起始位
    label：是否是监督样本数据
    '''
    csv_reader=csv.reader(open(test_data))
    data_list=[]
    for one_line in csv_reader:
        data_list.append(one_line)
    x_list=[]
    y_list=[]
    for one_line in data_list[1:]:
        if label==1:
            y_list.append(int(one_line[-1]))   #标志位
            one_list=[float(o) for o in one_line[n:-1]]
            x_list.append(one_list)
        else:
            one_list=[float(o) for o in one_line[n:]]
            x_list.append(one_list)
    return x_list, y_list



def split_data(data_list, y_list, ratio=0.30):
    '''
    按照指定的比例，划分样本数据集
    ratio: 测试数据的比率
    '''
    X_train, X_test, y_train, y_test = train_test_split(data_list, y_list, test_size=ratio, random_state=50)
    print '--------------------------------split_data shape-----------------------------------'
    print len(X_train), len(y_train)
    print len(X_test), len(y_test)
    return X_train, X_test, y_train, y_test

简单解释一下：

read_data函数功能是将csv格式的特征数据读入内存中，其中有几个参数，n代表每一条样本中特征数据的起始位，由于我的csv文件每个样本行第一个数据单元为样本的id，不参与计算，这里n=1.label代表读取的数据是监督样本数据还是无监督样本数据。

split_data是调用了sklearn的train_test_split函数，对其进行了简单的封装使用，可以输出按照制定比例ratio划分得到的训练集和测试集数据。

猜你喜欢

转载自blog.csdn.net/together_cz/article/details/80001715

Python读取csv数据文件，并按照指定比例划分为机器学习使用的训练集和测试集

Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集

用python将一个数据文件分为训练集和测试集

将数据集划分为训练集和测试集

机器学习之数据集划分——训练集测试集划分，划分函数，估计器的使用

学习笔记：使用python将数据集划分成测试集和训练集

python 机器学习划分训练集/测试集/验证集

机器学习数据集（训练集、测试集）划分方法

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

【深度学习】使用python划分数据集为训练集和验证集和测试集并放在不同的文件夹(转载)

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

数据集划分为训练集和测试集并生成标签--matlab代码

python实现划分机器学习训练集与测试集

机器学习：训练集与测试集的划分

用python程序按比例划分数据集(训练集+测试集)

深度学习之数据处理——如何将图片和标签打乱并划分为训练集和测试集

将数据划分为训练集和测试集；缩放特征区间

paddleseg数据集自定义比例划分为测试集test.txt，训练集train.txt，验证集val.txt

python划分训练集和测试集

python按设定比例划分训练集和测试集代码

机器学习数据挖掘数据集划分训练集验证集测试集

机器学习数据集划分训练集验证集测试集

机器学习数据集划分-训练集，验证集，测试集

VOC类型数据集划分为训练集、验证集、测试集

python指定字符集写入和读取csv文件

将标注好的yolo格式数据集划分为yolov5所适用的训练集和测试集

Python将样本划分为训练集/验证集/测试集

sklearn中train_test_split详解（数据集划分为训练集与测试集）

数据集的训练集和测试集划分

如何把数据集划分成训练集和测试集

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)