最简单的Python数据集分割：将Dataframe自由分割成指定大小的test和train - 代码天地

最简单的Python数据集分割：将Dataframe自由分割成指定大小的test和train

其他 2020-05-14 13:00:20 阅读次数: 0

kflod，cross_validation等函数包提供了很好的“成比例分割数据集”的方法，但是当我们希望获得指定大小的数据集时，应该怎么做呢？
笔者在课程实验中遇到了这个问题，编写了如下函数：

#Split the data into target number
def trainTestSplit(X,Y,train_num_of_X):
    '''
    This function can split the data into desire num for test and train by random.
    
    Variables Describe:
    X: Datafram without label
    Y: Data labels
    train_num_of_X: numbers of train set
    '''
    X_num=X.shape[0]
    test_index= list(range(X_num))
    train_index=[]
    train_num=train_num_of_X
    for i in range(train_num):
        randomIndex=int(np.random.uniform(0,len(test_index)))#Choose train set by random
        train_index.append(test_index[randomIndex])
        del test_index[randomIndex]
    #Control the label consistency
    train=X.iloc[train_index] 
    label_train=Y.iloc[train_index]
    test=X.iloc[test_index]
    label_test=Y.iloc[test_index]
    return train,test,label_train,label_test

上面的函数是在x存储特征，y存储label的操作。如果你的daraframe把label也放进去了，那么应该尝试如下函数：

#Split the data into target number
def trainTestSplit(X,train_num_of_X):
    '''
    This function can split the data into desire num for test and train by random.
    
    Variables Describe:
    X: Datafram without label
    train_num_of_X: numbers of train set
    '''
    X_num=X.shape[0]
    test_index= list(range(X_num))
    train_index=[]
    train_num=train_num_of_X
    for i in range(train_num):
        randomIndex=int(np.random.uniform(0,len(test_index)))#Choose train set by random
        train_index.append(test_index[randomIndex])
        del test_index[randomIndex]
    #Control the label consistency
    train=X.iloc[train_index] 
    test=X.iloc[test_index]
    return train,test

Haor.L

原创文章 27 获赞 56 访问量 1万+

关注私信

猜你喜欢

转载自blog.csdn.net/weixin_46233323/article/details/104964429

最简单的Python数据集分割：将Dataframe自由分割成指定大小的test和train

将MNIST数据集的train图片及lable分割成 number_index.bmp的形式

Linux下将文件打包、压缩并分割成指定大小

【TF2.0-CNN】将数据按指定比例随机分割成训练集、验证集

机器学习基础（五）之train和test数据集的分割和测试

Linux下将文件打包压缩、分割成指定大小、合并解压

pandas将DataFrame中的tuple分割成数据框的多列

Matlab实现把数据集X分割成训练集和测试集

train_test_split 分割测试集训练集

python 把一个数组arr按照指定的数组大小size分割成若干个数组块

python将一个大型csv分割成多个大小一样的小型csv（音频事件检测）

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

Linux tar命令总结：Linux下对文件进行打包、压缩并分割成指定大小

Java 集合List如何按照指定数量大小分割成多个List集合？

将excel表格分割成多个

将集合分割成多个小集合

机器学习：训练集与测试集分割train_test_split

linux中如何将大文件按照指定行数分割成多个小文件？

将js中的字符串用split方法分割成指定长度的字串

将一个列表按指定长度分割成多个列表

Python: 自动将Faster数据集分随机为trainval、test、val、train

Python分割训练集和测试集

js算法之把一个数组按照指定的数组大小分割成若干个数组块

【Java】【18】将大批量的List数据分割成小批量的

学习笔记137—Excel怎样将一列的数据分割成多列?【已解决】

548. 将数组分割成和相等的子数组

LeetCode 548. 将数组分割成和相等的子数组（哈希set）

linux指定大小分割文件

分割训练-测试数据：sklearn.model_selection.train_test_split()

将实例分割数据集转为目标检测数据集

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)