西瓜书第3章公式推导四

版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/82017444

西瓜书第3章公式推导四

3.5类别不平衡问题

类别不平衡是指分类任务中不同类别数目差距大。
例如负样本与正样本比为10:1。
3.5.1解决类别不平衡-欠采样(下采样)
减少负样本的训练集,使正样本与负样本接近。
代表算法:EasyEnsemble
原理:将负样本随机取出与正样本数目接近集合,组成训练集用于训练。重复以上多次产生多个基分类器。将各个基分类器集成输出最终决策。

3.5.1解决类别不平衡-过采样
代表算法:SMOTE
原理:
下图表示蓝色样本点数目远大于红色样本点
这里写图片描述
先随机选取1个少类样本点
这里写图片描述
再根据欧式距离计算出它到少类样本的距离,得到K近邻。
这里写图片描述
对于每一个少类样本,从K近邻中随机选出近邻 x n
这里写图片描述
则新样本

x n e w = x + r a n d ( 0 , 1 ) | x x n |

3.5.1解决类别不平衡-阙值移动
这类方法的中心思想不是对样本集和做再平衡设置,而是对算法的决策过程进行改进。
当选取的训练集因为各类样本数目接近,令 m + 表示正样本数目, m 表示负样本数目,则观察几率 m + m 接近1 时,y>0.5判别为样本,即 y 1 y > 1 时,预测为正样本;当各类样本数目差距大时,则 y 1 y > m + m 时判别为正样本。

猜你喜欢

转载自blog.csdn.net/qq_34553043/article/details/82017444