[DataAnalysis]机器学习算法——类别不平衡问题

类别不平衡对数据分析的影响

大部分的分类学习方法都有一个默认的假设:不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别,通常影响不大。比如如果一个1000个样例的数据集中,有998个反例只有两个正例。那么学习方法只需要返回一个预测值斗士反例的模型则正确率就可以达到99.8%,这显然是不合理的

类别不平衡问题定义

类别不平衡(class imblance)指分类问题中不同类别的训练样例数目差别很大的情况。

处理方法

在我们用y=w^Tx+b对新样本进行分类的时候,事实上是在用预测出来的y值和一个阈值进行比较,例如通常在y>0.5的时候判别为正例,否则为反例。y实际上表达了正例的可能性。几率\frac{y}{1-y}则反应了正例可能性和反例可能性之比值,阈值设为0.5说明分类器认为真实正反例可能性相同。即:

\frac{y}{1-y}>1,则预测为正例

然而当训练集中的正、反例数目不相同时,令m^+表示正例树木,用m^-表示反例数目,则观测几率是\frac{m^+}{m^-},即:

\frac{y}{1-y}>\frac{m^+}{m^-},则预测为正例

猜你喜欢

转载自blog.csdn.net/TOMOCAT/article/details/82259251