python imblearn toolbox 解决数据不平衡问题(一)——imblearn简介 - 代码天地

python imblearn toolbox 解决数据不平衡问题(一)——imblearn简介

其他 2019-04-29 17:32:50 阅读次数: 0

我们在处理医疗诊断等问题，会遇到不平衡数据，即病人的数据量相对于正常人的数据量要小的多。而大多数机器学习算法需要较为平衡的数据。如果不对不平衡数据处理,往往会导致模型向majority class方向偏移。在Python中,有个很好用的库imbalanced-learn——imblearn.在本博文,只借鉴论文进行关键点总结。

参考

先放参考,后文是我在阅读参考资料时整理的笔记,因此难免疏漏.
论文网址
 Github
文档

实现的采样方法

Under-sampling:即下采样,减少多数样本的数量；
Over-sampling:即上采样,生成少数样本;
Over-sampling followed by under-sampling:先上采样再下采样,防止过拟合;
Ensemble classifier using samplers internally:集成学习的方法.

win10安装

pip install imblearn

依赖：numpy, scipy, scikit-learn

使用方式

与sklearn相似,主要是fit和fit_resample.论文中给出的一个例子为：

#基本用法
from sklearn.datasets import make_classification 
from sklearn.decomposition import PCA 
from imblearn.over_sampling import SMOTE

#Generate the dataset
x, y = make_classification(n_classes=2,weights=[0,1,0.9],
                           n_features=20,n_samples=5000)

#Apply the SMOTE over-sampling
sm = SMOTE(ratio='auto', kind='regular') #可选其它采样方式
X_resampled, y_resampled = sm.fit_resample(X,y)

samplers的调用方法

Way1

estimator = obj.fit(data, target)

Way2

data_resampled, target_resampled = obj.fit_resample(data, targets)

可以接受的input数据格式:

data: array-like (2-D list, pandas.Dataframe or numpy.array) or sparse
matrices targets: array-like(1-D list, pandas.Serise, numpy.array)

猜你喜欢

转载自blog.csdn.net/mathlxj/article/details/89604127

python imblearn toolbox 解决数据不平衡问题(一)——imblearn简介

python imblearn toolbox 解决数据不平衡问题(三)——under-sampling下采样

python imblearn toolbox 解决数据不平衡问题(二)——over-sampling上采样

python imblearn toolbox 解决数据不平衡问题(四)——联合采样、集成采样、其它细节

Python imblearn 解决类别不平衡问题

类别不平衡问题之SMOTE算法（Python imblearn极简实现）

python中使用anaconda对不平衡数据的处理包imblearn的安装

数据不平衡imblearn算法汇总

不平衡数据处理-imblearn

Python安装imblearn库

python调用imblearn中SMOTE踩坑

数据预处理 | python 第三方库 imblearn 处理样本分布不均衡问题

在Anaconda上面安装imblearn包

Py之imblearn：imblearn/imbalanced-learn库的简介、安装、使用方法之详细攻略

python使用sklearn以及imblearn包进行数据扩增（同样适用于组学数据处理方案）

sklearn的imblearn包欠采样Name ‘RandomUnderSampler‘ is not defined

docker toolbox遇到的问题

robotics toolbox(一)

BAT机器学习特征工程工作经验总结(一)如何解决数据不平衡问题（附python代码）

echarts中toolbox乱码问题

笔记：Python Data Science Toolbox (Part 1)

用Python处理不平衡数据集

处理不平衡数据的十大Python库

处理不平衡数据的十大 Python 库

ARCMAP TOOLBOX 空白解决办法

解决 Ubuntu 22.04 无法运行 JetBrains Toolbox

安装Docker Toolbox后出现的问题

Mapping toolbox绘制地理栅格数据

python机器人库（robotics-toolbox-python）的运用

数据不平衡问题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)