版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunlanchang/article/details/89510773
再缩放
在使用逻辑回归解决分类问题时等价的Sigmoid函数(Sigmoid反函数)为:
ln1−yy=wTx+b
其中的
1−yy为正例和负例的可能性之比,在预测时通常使用
1−yy>1预测为正例,也就是我们认为正例和反例在数据集中是相同个数的即
0.5:0.5=1,通常而言这个假设并不成立,
m−m+一般来说不等于1,应该采用下列不等式来确定阈值:
1−yy>m−m+
可以采用这种策略使得正反例的比例重新回到
0.50.5=1:
1−y′y′=1−yy×m+m−
此时的
1−y′y′是新的正反例之比,此时的比值为1,可以重新使用
1−y′y′>1预测为正例了。
欠采样
去除一些正例或者反例使得正反例的比例相近。
过采样
增加一些正例或者反例使得正反例比例相近,常采用插值方式增加例子,常用算法SMOTE算法。