深入理解机器学习——类别不平衡学习（Imbalanced Learning）：基础知识

传统的分类技术通常存在一个致命缺陷，即当其在样本分布不均衡的数据上训练时（如：采用99个健康人和1个病人的体检指标创建疾病诊断模型或99990个正常数据包和10个病毒数据包构建网络入侵检测模型等），往往会出现分类面偏倚的现象，从而无法得到理想的分类效果，在严重情况下，模型甚至会完全失效。

上述问题在机器学习与数据挖掘领域通常被称为类别不平衡（Class Imbalanced）问题，人们也习惯地将用于解决上述问题的算法统称为类别不平衡学习算法。自20世纪90年代末以来，类别不平衡学习一直是机器学习与数据挖掘领域的研究热点与难点之一，很多业内的主流会议与期刊也都曾以此为题举办过专刊或研讨会，如AAAI’00, ICML, ACM SIGKDD Explorations Newsletter以及PAKDD等。在ICDM会议上，类别不平衡问题更是被列为数据挖掘领域待解决的十大难题之一。时至今日，学术界及产业界对该问题的研究热情仍未消退，且随着大数据的出现而呈现逐渐升温的态势。

在近10年，类别不平衡领域的文献发表数仍表现出逐年递增的趋势，特别是在2012年后，每年发表的文献数均保持在120篇以上。事实上，考虑到关键词及文献库选取的局限性，上述统计结果是在打了严重折扣的情况下得到的，实际上要远多于此。由此可见，类别不平衡学习已逐渐发展成为机器学习与数据挖掘领域的重要分支之一。在《深入理解机器学习——类别不平衡学习》系列的后续部分，将陆续对类别不平衡问题的基本概念、常用的类别不平衡学习技术及类别不平衡学习所适用的应用领域做概要性的介绍，以使读者能对类别不平衡学习有初步简单的了解与认识，为机器学习实战项目打下坚实的基础。

类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。不失一般性，我们可以假设训练集中只包含两类样本，即待处理的分类问题为二分类问题，同时，为了保证更好的可视化效果，不妨设每个样本均具有两个特征。下图给出了平衡样本集及不平衡样本集的对比效果，其中：平衡样本集中两类各有500个样本，类别1样本在特征1的[0,0.7]取值区间及特征2的[0,1]取值区间上分别服从均匀分布，而类别2样本在特征1的[0.5,1]取值区间及特征2的[0,1]取值区间内服从均匀分布；不平衡样本集同样包含1000个样本，但类别1被分配900个样本，而类别2仅有100个样本，其各自的分布与平衡样本集完全一致。
在这里插入图片描述
不难观察到一个有趣的现象，即仅从视觉效果来看，在平衡与不平衡训练集上，两类样本具有完全不同的分割位置，即表明它们的分类边界不同。但据我们所知，在这两个训练集上，同类样本的分布是完全一致的。那么，这难道仅仅是由于人类视力的缺陷而引起的错觉么？事实却非如此，因为绝大多数传统的分类算法都犯了和人类眼睛同样的错误。众所周知，尽管传统的分类算法在构造机理上各不相同，但却几乎均遵循一个共有的原则，即训练误差最小化原则。在平衡训练集上，采用训练误差最小化原则无疑会得出最优结果，而当训练集为不平衡时，若仍然坚持采用这一原则则会产生严重后果。回顾上图（b），可清晰地观察到两类样本在特征1的[0.5, 0.7]取值区间内相互交叠，且在这一区间内类别1（多数类）的样本个数远多于类别2（少数类），若采用训练误差最小化原则，则处于此区间内的少数类样本均会被误判，导致少数类的分类精度远低于多数类，从而致使所训练分类模型的质量大打折扣，甚至完全失效。这便是类别不平衡问题对传统分类算法所提出的挑战。

在类别不平衡问题中，人们习惯将包含样本数较多的类别称为负类，而将样本数较少的类别称为正类。此外，另一个较重要的概念为不平衡比率（Imbalanced Ratio, IR），它的值为负类样本数与正类样本数之比。通常，IR值越大，其对传统分类器性能的危害也会越大。考虑一个IR值为99的训练样本集，若在构造分类器时，将所有的正类样本均误判为负类，其分类精度仍可达到99%，而这样的精度对于建立在训练误差最小化原则之上的传统分类算法而言，是绝对可以接受的，但这样的分类模型确用处不大。

根据不同的划分标准，类别不平衡问题也可被分为多个不同的类别，具体分类标准如下：

以类别数作为划分标准：将类别不平衡问题划分为一类不平衡问题、二类不平衡问题及多类不平衡问题。其中，二类不平衡问题在实际应用中最为常见，目前研究得也最为充分；多类不平衡问题相对最为复杂，目前仍是该领域的研究热点与难点；而一类不平衡问题则独树一帜，目前已有多种有效的解决方案。
以IR值作为划分标准：将类别不平衡问题划分为轻度不平衡问题和极度不平衡问题。其中，前者的IR值较小，对传统分类器性能的影响强度也不大，而后者则会对传统分类算法构成较大威胁，极端情况下会令其完全失效。
以作用范围作为划分标准：将类别不平衡问题划分为类内不平衡问题与类间不平衡问题。其中，前者又被称作类内子聚集或小析取项问题，其主要是由同类样本在特征空间分布不均所致，而后者则被视为传统意义上的类别不平衡问题。上述二者既有区别，又相互关联，当二者共同出现时，将为学习任务制造更多的困难。

除上述概念外，读者还有必要弄清类别不平衡学习与代价敏感学习之间的区别与联系。实际上，上述二者是两个完全不同的概念，在机器学习领域也分属两个完全不同的分支。在代价敏感学习中，代价的定义往往分多种，包括误分代价、测试代价、查询代价、样本代价、计算代价等。仅当考虑误分代价时，代价敏感学习才能与类别不平衡学习建立起联系，并被用作类别不平衡学习方法使用。因此，读者不要混淆上述两类学习方法的概念。

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：基础知识

猜你喜欢