机器学习入门-数据过采样（上采样）1. SMOTE - 代码天地

机器学习入门-数据过采样（上采样）1. SMOTE

其他 2019-01-15 13:34:42 阅读次数: 0

from imblearn.over_sampling import SMOTE # 导入

overstamp = SMOTE(random_state=0)

# 对训练集的数据进行上采样，测试集的数据不需要
SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)

由于数据分布的不均衡，因此对数据进行上采样，上采样的数据指的是将少数的样本扩增到与多数样本相同的样本数

使用的方法：

取少数样本中的一个数据，求出该样本与其他样本的距离，根据欧式距离进行排序，取出前5个数据

新数据的位置 X_new = X + rand(0, 1) * distance X表示当前数据的位置， distance表示与另外一个数据的欧式距离，乘上了一个随机值

# 进行数据过采样操作
from imblearn.over_sampling import SMOTE
from sklearn.cross_validation import train_test_split

X = data.loc[:, data.columns != 'Class']
y = data.loc[:, data.columns == 'Class']

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)
overstamp = SMOTE(random_state=0)

SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)
# 统计数据的标签0，1个数
print(pd.value_counts(SMOTE_train_y, sort=True).sort_index())

猜你喜欢

转载自www.cnblogs.com/my-love-is-python/p/10271295.html

机器学习入门-数据过采样（上采样）1. SMOTE

smote(过采样算法)

Python机器学习 smote过采样算法

过采样算法之SMOTE

过采样中用到的SMOTE算法

spark实现smote样本采样

spark实现smote近邻采样

集成学习与SMOTE

SMOTE过采样处理不均衡数据（imbalanced data）

SMOTE

数据处理过采样与欠采样 SMOTE与随机采样达到样本均衡化

机器学习 —— 类不平衡问题与SMOTE过采样算法

浅谈SMOTE之类不平衡过采样方法

SMOTE 过采样，解决正负样本不均衡问题

特征工程—1.不均衡样本集采样—SMOTE算法与ADASYN算法

数据不平衡处理----smote算法

处理非平衡数据集——SMOTE算法

不平衡数据-SMOTE综述

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：样本采样技术-[人工采样技术之SMOTE采样法及Borderline-SMOTE采样法]

非平衡数据处理SMOTE的改良算法-borderline SMOTE, ADASYN

Python借助smote实现不均衡样本数据的上采样和下采样，并可视化展示样本分布

数据挖掘面试题之SMOTE算法

Spark -- Spark的smote算法，非平衡数据处理示例

smote算法

DataScience：对严重不均衡数据集进行多种采样策略(随机过抽样、SMOTE过采样、SMOTETomek综合采样、改变样本权重等)简介、经验总结之详细攻略

机器学习数据不平衡处理之SMOTE算法实现

ML之LoR：利用信用卡数据集(欠采样{Nearmiss/Kmeans/TomekLinks/ENN}、过采样{SMOTE/ADASYN})同时采用LoR算法(PR和ROC评估)进行是否欺诈二分类

kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3）效果比较好！记得在smote前一定要先做标准化！！！

【SMOTE算法】解决数据不平衡的问题，进行数据扩充使用

数据预处理-非平衡样本的处理方式(SMOTE--待补充)

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)