sklearn 划分数据集 - 代码天地

sklearn 划分数据集

其他 2018-11-27 17:42:03 阅读次数: 0

#-*- coding: UTF-8 -*-

from sklearn.model_selection import train_test_split



def split(dataset, labelset, test_size, train_savefile, test_savefile):

    # split into training set and test set
    x_train, x_test, y_train, y_test = train_test_split(dataset, labelset, test_size=test_size, random_state=42, stratify=labelset )
  
    savetxt(train_savefile, x_train)
    savetxt(test_savefile, x_test)

    return x_train, x_test


def savetxt(path, np_array):
    with open(file=path, mode='w', encoding='utf-8') as fw:
        fw.writelines(np_array)

def reader_data(datafile):
    data_list = []
    with open(datafile, mode='r', encoding='utf-8') as f:
        for line in f:
            data_list.append(line)

    return data_list

if __name__ == '__main__':

    datafile = 'data/output/tra-set0603_0.9'
    dataset = reader_data(datafile)
    label_file = 'data/output/tra-set0603_0.9_label'
    labelset = reader_data(label_file)

    test_size = 0.2
    train_savefile = 'data/output/raw_0.9/raw_train.txt'
    test_savefile = 'data/output/raw_0.9/raw_test.txt'
    split(dataset, labelset, test_size, train_savefile, test_savefile)

猜你喜欢

转载自blog.csdn.net/Cincinnati_De/article/details/80622948

sklearn 划分数据集

sklearn之划分数据集

sklearn数据集划分

sklearn-数据集划分

sklearn中数据集划分

Python Sklearn数据集划分函数StratifiedShuffleSplit

sklearn模型选择--数据集的划分

sklearn 数据集划分和数据预处理

机器学习sklearn之数据集划分+KNN算法

sklearn提供的数据集

sklearn数据集

sklearn自带数据集

sklearn datasets数据集

【DA】sklearn的数据集

Sklearn——数据集分割

划分数据集

sklearn中train_test_split详解（数据集划分为训练集与测试集）

【Python学习】 - sklearn学习 - 数据集分割方法 - 随机划分与K折交叉划分与StratifiedKFold与StratifiedShuffleSplit

【七天入门ML与DL-01】加载sklearn自带的数据集数据集划分

【机器学习】sklearn数据集的使用，数据集的获取和划分

AI（一）sklearn数据集

机器学习 sklearn 数据集

Sklearn数据集与机器学习

sklearn提供的自带数据集

sklearn----数据集操作

Sklearn提供的常用数据集

sklearn的数据集模块datasets

08_sklearn数据集，数据集划分train_test_split，sklearn.datasets及其api，sklearn分类数据集，sklearn回归数据集，转换器与预估器

pytorch划分数据集

如何划分数据集

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)