类别不平衡问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunlanchang/article/details/89510773

再缩放

在使用逻辑回归解决分类问题时等价的Sigmoid函数(Sigmoid反函数)为:
ln y 1 y = w T x + b \ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b
其中的 y 1 y \frac{y}{1-y} 为正例和负例的可能性之比,在预测时通常使用 y 1 y > 1 \frac{y}{1-y}>1 预测为正例,也就是我们认为正例和反例在数据集中是相同个数的即 0.5 : 0.5 = 1 0.5:0.5=1 ,通常而言这个假设并不成立, m + m \frac{m^+}{m^-} 一般来说不等于1,应该采用下列不等式来确定阈值:
y 1 y > m + m \frac{y}{1-y}>\frac{m^{+}}{m^{-}}
可以采用这种策略使得正反例的比例重新回到 0.5 0.5 = 1 \frac{0.5}{0.5}=1
y 1 y = y 1 y × m m + \frac{y^{\prime}}{1-y^{\prime}}=\frac{y}{1-y} \times \frac{m^{-}}{m^{+}}
此时的 y 1 y \frac{y^{\prime}}{1-y^{\prime}} 是新的正反例之比,此时的比值为1,可以重新使用 y 1 y > 1 \frac{y^{\prime}}{1-y^{\prime}}>1 预测为正例了。

欠采样

去除一些正例或者反例使得正反例的比例相近。

过采样

增加一些正例或者反例使得正反例比例相近,常采用插值方式增加例子,常用算法SMOTE算法。

猜你喜欢

转载自blog.csdn.net/sunlanchang/article/details/89510773