《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题 - 代码天地

《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题

其他 2018-09-26 12:17:09 阅读次数: 0

类别不平衡是指分类任务中不同类别的训练样例数目相差很大

现有技术大体上有三类做法解决此问题：
1. 欠采样
2. 过采样
3. 阈值移动/再缩放

1. 欠采样

直接对训练集里的反类样例进行欠采样，即去除一些反例使得正反例数目接近，然后再进行学习。欠采样若随机丢弃反例，可能会丢失重要信息。代表性算法：EasyEmsemble，利用集成学习机制，将反例划分为若干个集合，供不同学习器使用，这样对每个学习器来看都进行了欠采样，但全局来看不会丢失重要信息。

2. 过采样

对训练集里的正类样例进行过采样，即增加一些正例，使得正反例数目接近，然后再进行学习。但不能简单对初始正例样本重复采样，否则过拟合严重。代表性算法SMOTE，通过对训练集的正例进行插值，产生额外的正例。

3. 阈值移动

基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 ${y'}\over{1-y'}$ = $y\over{1-y}$ * ${m^+}\over m^-$ 再缩放考虑入决策过程。

几率 $y\over{1-y}$ 反应正例可能性和反例可能性之比值，阈值设置为0.5表明分类器任务正反例可能性相同，即分类器决策为:

若 $y\over{1-y}$ >1则为正例, $y\over{1-y}$ 为预测几率.

当训练集中正反例的数目不同时，令 $m^+$ 表示正例数目， $m^-$ 表示反例数目，观测几率为 ${m^+}\over m^-$ ,通常假设训练集是真是样本总体的无偏采样，因此观测几率代表真是几率，所以只要预测几率大于观测几率就应判断为正例。即：

$y\over{1-y}$ > ${m^+}\over m^-$ 则预测为正例

但是，我们的分类器是基于 $y\over{1-y}$ >1进行决策的，因此对其预测值进行调整，使其基于 $y\over{1-y}$ >1决策时实际在执行 $y\over{1-y}$ > ${m^+}\over m^-$ ，所以，需要令：

${y'}\over{1-y'}$ = $y\over{1-y}$ * ${m^+}\over m^-$

这就是类别不平衡学习的基本策略——再缩放

再缩放/再平衡虽然简单，但实际操作并不平凡。因为训练集是真实样本总体的无偏采样的假设，一般并不成立。未必可有效基于训练集观测几率来估计真实几率。

猜你喜欢

转载自blog.csdn.net/weixin_38278334/article/details/82533764

《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题

《机器学习（周志华西瓜书）》学习笔记1：第三章-线性模型

《机器学习》周志华(西瓜书)学习笔记第三章线性模型

《机器学习》西瓜书第三章线性模型笔记

《机器学习西瓜书》学习笔记——第三章_线性模型：对数几率回归（逻辑回归）

周志华西瓜书《机器学习》第三章线性模型

机器学习西瓜书第三章——线性模型

机器学习西瓜书——第三章线性模型

【西瓜书笔记】——第三章：线性模型

西瓜书+实战+吴恩达机器学习（三）机器学习基础（多分类、类别不平衡）

《机器学习西瓜书》学习笔记——第三章_线性模型_线性回归&对数几率回归附 LogisticRegression - 参数说明

《机器学习西瓜书》学习笔记——第三章_线性模型：线性回归&对数几率回归 (附 LogisticRegression - 参数说明）

机器学习-类别不平衡问题

【超详细！】周志华《机器学习》西瓜书小白Python学习笔记（二）————第三章线性模型（对数几率回归）附课后题3.3详解

西瓜书第三章-线性回归模型

西瓜书学习笔记——第三章：线性模型

机器学习周志华书类别不平衡问题解决办法

机器学习-西瓜书、南瓜书第三章

[DataAnalysis]机器学习算法——类别不平衡问题

机器学习中的类别不平衡问题

机器学习之类别不平衡问题 —— 采样方法

机器学习 - 第三章线性模型

线性模型机器学习第三章

周志华-机器学习西瓜书-第三章习题3.5 LDA

机器学习(周志华) 西瓜书第三章课后习题4.4—— Python实现

机器学习(周志华) 西瓜书第三章课后习题4.3—— Python实现

机器学习(周志华) 西瓜书第三章课后习题3.5—— Python实现

机器学习(周志华) 西瓜书第三章课后习题3.4—— Python实现

机器学习(周志华) 西瓜书第三章课后习题3.3—— Python实现

《机器学习》周志华学习笔记第三章线性模型（课后习题）python 实现

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)