DataFrame使用pd.sample()随机选取N行数据

1.简介

在训练深度学习或者机器学习模型时,免不了需要按照比例划分训练集和验证集,有的时候使用pandas的方式读取csv数据文件,得到的是一个DataFrame的对象df,这时可以使用pd.sample()来实现从df中随机抽样。

2.函数说明

df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
输入参数见下表所示:

参数名称 参数说明
n 要抽取的行数
frac 抽取行的比例
replace 是否为有放回抽样,True:有放回抽样,False:不放回抽样
weights 字符索引或概率数组,axis=0:为行字符索引或概率数组,axis=1:为列字符索引或概率数组
random_state int: 随机数发生器种子或numpy.random.RandomState
axis 选择抽取数据的行还是列,axis=0:抽取行,axis=1:抽取列

3.返回值说明

返回值为带有N行数据的DataFrame对象(N=1时也是DataFrame对象)

4.附加说明

df.sample()函数中设置frac=1.0时可以实现shuffle

猜你喜欢

转载自blog.csdn.net/gaolijing_/article/details/104771080
今日推荐