多分类样本类别分布不均衡-解决方案-损失函数(二):Long-Tail Learning via Logit Adjustment

利用深度学习做多分类在工业或是在科研环境中都是常见的任务。在科研环境下,无论是NLP、CV或是TTS系列任务,数据都是丰富且干净的。而在现实的工业环境中,数据问题常常成为困扰从业者的一大难题;常见的数据问题包含有:

  • 数据样本量少
  • 数据缺乏标注
  • 数据不干净,存在大量的扰动
  • 数据的类间样本数量分布不均衡

除此之外,还存在其他的问题,本文不逐一列举。针对上述第4个问题,2020年7月google发表论文《 Long-Tail Learning via Logit Adjustment 》 通过 BER ( Balanced Error Rate ) 对交叉熵函数的相关推理,在原有的交叉熵的基础上进行改造,使得平均分类精度更高。本文将简要解读该论文的核心推论,并使用 keras 深度学习框架进行实现,最后通过简单的Mnist手写数字分类的实验验证结果。本文将从以下四个方面进行解读:

  • 基本概念
  • 核心推论
  • 代码实现
  • 实验结果

1. 基本概念

基于深度学习的多分类问题中,想要获得更优的分类效果往往需要对数据、神经网络的结构参数、损失函数以及训练参数做出调整;尤其是在面对类别不均衡的数据时,做出的调整更多。在论文《 Long-Tail Learning via Logit Adjustment 》中,为了缓解类别不均衡造成的低样本类别分类准确率低的问题,只向损失函数中加入了标签的先验知识便获得了SOTA效果。

因此,本文针对其核心推论,首先简要阐述四个基本概念:(1)长尾分布 、(2)softmax 、(3)交叉熵 、(4)BER

缓解多分类的样本不均衡问题 - 知乎

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/129959227
今日推荐