1.简介
在训练深度学习或者机器学习模型时,免不了需要按照比例划分训练集和验证集,有的时候使用pandas的方式读取csv数据文件,得到的是一个DataFrame的对象df
,这时可以使用pd.sample()
来实现从df中随机抽样。
2.函数说明
df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
输入参数见下表所示:
参数名称 | 参数说明 |
---|---|
n | 要抽取的行数 |
frac | 抽取行的比例 |
replace | 是否为有放回抽样,True:有放回抽样,False:不放回抽样 |
weights | 字符索引或概率数组,axis=0:为行字符索引或概率数组,axis=1:为列字符索引或概率数组 |
random_state | int: 随机数发生器种子或numpy.random.RandomState |
axis | 选择抽取数据的行还是列,axis=0:抽取行,axis=1:抽取列 |
3.返回值说明
返回值为带有N行数据的DataFrame对象(N=1时也是DataFrame对象)
4.附加说明
在df.sample()
函数中设置frac=1.0
时可以实现shuffle