西瓜书3.3扩展softmax回归及3.6类别不平衡问题

一:类别不平衡问题,通俗来讲就是正负样本分布不平衡,假如,正样本较少,负样本较多。

对于一般的线性回归问题,预测值y>0.5时判为正例。

解决类别不平衡的问题的三种解决办法:

①对负样本进行欠采样,即去除一些负样本,使正负样本分布均衡。主要的代表算法是EasyEnsemble.将负样本划分为不同的集合供不同的学习器使用,这样保证了欠采样不缺失重要的信息。

②对正样本进行过采样。主要的算法是SMOTE,采用插值法,保证了过拟合的风险。

③直接对原始的训练集进行学习,但是在预测时,对阈值进行改变,即y/(1-y) >_{m}^{+}/_{m}^{-}时预测为正样本。_{m}^{+} _{m}^{-}分别表示正负样本的个数。

二:softmax回归

softmax回归时逻辑回归的推广。

三.Softmax 回归 vs. k 个二元分类器

如果你在开发一个音乐分类的应用,需要对k种类型的音乐进行识别,那么是选择使用 softmax 分类器呢,还是使用 logistic 回归算法建立 k 个独立的二元分类器呢?

这一选择取决于你的类别之间是否互斥,例如,如果你有四个类别的音乐,分别为:古典音乐、乡村音乐、摇滚乐和爵士乐,那么你可以假设每个训练样本只会被打上一个标签(即:一首歌只能属于这四种音乐类型的其中一种),此时你应该使用类别数 k = 4 的softmax回归。(如果在你的数据集中,有的歌曲不属于以上四类的其中任何一类,那么你可以添加一个“其他类”,并将类别数 k 设为5。)

如果你的四个类别如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别之间并不是互斥的。例如:一首歌曲可以来源于影视原声,同时也包含人声 。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。这样,对于每个新的音乐作品 ,我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子,你的任务是将图像分到三个不同类别中。(i) 假设这三个类别分别是:室内场景、户外城区场景、户外荒野场景。你会使用sofmax回归还是 3个logistic 回归分类器呢? (ii) 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片,你又会选择 softmax 回归还是多个 logistic 回归分类器呢?

在第一个例子中,三个类别是互斥的,因此更适于选择softmax回归分类器 。而在第二个例子中,建立三个独立的 logistic回归分类器更加合适。

猜你喜欢

转载自blog.csdn.net/nowfuture/article/details/81913782