不平衡数据/少数样本下学习困难的原因

文章目录

总结

  1. 样本不平衡分布,内部不平衡(患病患者)+外部不平衡(因隐私收集数据困难)。
  2. 从极端的类不平衡数据中学习(地震、海啸)。
  3. 不平衡分布(不平衡率,imbalance ratio,IR)不是分类困难的原因,如果正负类存在良好的代表性,即很好的表示并且来自非重叠分布,也可以获得很好的结果。
  4. 不平衡的敏感性与问题复杂性有关。 非复杂的、线性可分离的问题不受所有级别的类不平衡的影响。
  5. 可用的少数样本总数 比 不平衡率 更重要。

具体原因

  1. 大量的少数类样本出现在多数类样本密集的区域
  2. 类别之间的分布严重重叠(overlapping),即不同类别的样本相对密集地出现在特征空间的同一区域。

研究指出,相比于IR,overlapping对分类难度具有更显著的影响。
同时发现:在overlapping程度较高的时候,KNN分类器比SVM效果好;随着overlapping程度增高,更加local (K值越小) 的KNN效果更好。
原因:在overlapping程度变高时,由于少数类的空间中插入了更多的多数类样本,少数类数据会更倾向于稀疏分布,更加local的分类器简单,有效。

  1. 异常样本(noisy sample/噪声/离群点):不平衡学习中基本所有分类器都对噪声敏感,尤其是少数类的噪声。

原因:大部分方法如cost sensitive learning会更加重视少数类,因此少数类中的噪声具有更大影响。
此外,简单分类器如Naive Bayes / KNN,在面对噪声时比复杂的分类器更加鲁棒。

  1. 少数样本分布的稀疏性(sparsity)、稀疏性导致拆分成多个子概念(sub-concepts,子clusters)、每个子概念仅含有较少的样本量。

猜你喜欢

转载自blog.csdn.net/deer2019530/article/details/129725805
今日推荐