sklearn分层抽样 - 代码天地

sklearn分层抽样

企业开发 2023-06-05 00:02:51 阅读次数: 0

如果数据集足够庞大（特别是相较于属性的数量而言），纯随机抽样方法通常不错，如果数据集较小，则有可能导致明显的抽样偏差。若一家调查公司打电话给1000个人来调研几个问题，他们试图确保让着1000人能够代表全体人口。例如美国人口组成为51.3%的女性和 48.7%的男性，所以若要进行一场有效的调查，1000个样本中应该试图也维持这一比例，即513名女性和487名男性，这就是分层抽象的思想

sklearn实现步骤

这里以美国加州住房信息housing.csv文件数据为例进行分层抽样演示。该文件自行百度搜索下载

from sklearn.model_selection import StratifiedShuffleSplit # 引入分层抽样类


# pd.cut()来划分5个类别的中位数收入（labels属性），bins属性列表表示划分的范围，即0~1.5，1.5~3.0等等
#其中df['income_cat']表示在原始DataFrame中插入income_cat属性列，income_cat列的值为pd.cut()函数返回的值（labels属性列表中的某个值）
df['income_cat'] = pd.cut(df['median_income'], bins=[0, 1.5, 3.0, 4.5, 6., np.inf], labels=[1, 2, 3, 4, 5])
split = StratifiedShuffleSplit(test_size=0.2, random_state=42)
# split()函数返回分层抽样后训练集、测试机二者的索引
for train_index, test_index in split.split(df, df['income_cat']):
    start_train_set = df.loc[train_index] # 根据索引来从df中抽取训练数据集
    start_test_set = df.loc[test_index] # 根据索引来从df中抽取测试数据集

猜你喜欢

转载自blog.csdn.net/weixin_47834823/article/details/128807373

sklearn分层抽样

sklearn,交叉验证中的分层抽样

分层抽样

GEE：分层抽样

StratifiedKFold实现分层抽样

方差缩减——分层抽样

分层取样，分层抽样法

R语言分层抽样(strata函数)

分层抽样原理及Oracle实现

python数据分层抽样工具类

SAS 分层抽样示例代码

R语言随机抽样及分层抽样

随机抽样、分层抽样、整群抽样、系统抽样的区别

Matlab 对数据按类别进行分层抽样

Python 珍藏函数超详解：随机抽样，分层抽样，系统抽样方法汇总

Spark 分层抽样与求最大值最小值

基于分层抽样的交叉验证（构造一个类） | python实现

EL之RF(RFC)：利用RF对多分类问题进行建模并评估(六分类+分层抽样)

pandas样本分层抽样（可以自己设置每一个类别抽取多少个样本）

分层

过抽样欠抽样

纯随机采样(train_test_split)和分层采样(StratifiedShuffleSplit)| sklearn库实现

sklearn

ｓｋｌｅａｒｎ

样本抽样

Bootstrap抽样

抽样分布

抽样定理

抽样信号

水库抽样

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)