机器学习(二十一):类不平衡处理之权重法

个人笔记,不用购买。

本文介绍了类不平衡的概念,以及四种解决方法。同时本文仅对第一个方法:类权重,进行案例实现。

一、什么是类不平衡?

类不平衡是指机器学习中的一个问题,其中数据中的类表示不均等。例如,如果有 100 个数据点,其中 90 个属于 A 类,10 个属于 B 类,那么这些类是不平衡的。类不平衡可能导致训练机器学习模型出现问题,因为模型可能偏向于更常见的类。如果一个类别的示例比另一个类别多,则该模型将更有可能学习和预测多数类别。这可能是一个问题,因为当模型应用于更均匀平衡的数据时,它可能导致结果不准确。在解决与医疗保健领域、银行(欺诈)相关的分类问题时,它已被发现是最常见的问题之一) 领域等。例如,如果您想构建一个模型,将交易分类为欺诈或其他类型,则数据集将高度不平衡,因为不会有很多与欺诈相关的交易被发现的实例。与构建具有高性能的模型相关的挑战是解决高度偏斜的数据类分布,这被称为不平衡分类问题。当数据集中的类具有高度不相等的样本数时,就会出现分类不平衡问题 。类不平衡是机器学习中的一个常见问题,并且很难克服。

二、常用解决方法

方法一:使用类权重
使用类权重是解决机器学习模型中类不平衡的常用方法。当类之间的观察数量存在差异时,就会发生类不平衡,这通常会导致一个类相对于另一个类被过度代表。类权重调整模型的成本函数,使得对少数类的观察错误分类比对多数类的观察错误分类更严重。这种方法可以通过重新平衡类分布来帮助提高模型的准确性。但是,需要注意的是,类权重不会创建新的数据点,也不能

猜你喜欢

转载自blog.csdn.net/weixin_46211269/article/details/126409456