on-line hard example mining in object detection

物体检测中的困难样本挖掘，之前有一个名词叫做hard negative mining困难负样本挖掘

先讨论什么是on-line hard example mining（OHEM）：例如一个背景，被很大概率预测为前景了，那么这个背景就是困难样本；对于一个前景（ground truth classes为foreground），网络模型预测它很大的概率值为背景，则这个前景也是困难样本，也就是说，在线困难忘本挖掘是不区分正负样本的（但是在代码实现中，由于正样本个数较少，通常保留所有的正样本，然后按照1：3的比例采样出3倍数量的负样本），它希望更多的训练困难样本，而不是简单样本，具体的程序实现在 torchcv中的ssdloss.py中有所体现。
在SSD和FPNSSD编码器中，都是将IOU_max大于0.5的anchor设置为正样本，小于0.5的设置为负样本，

classification target为 -1 ingore 0 negative examples 1 2 3 ~ num_classes positive examples

然后计算SSDLoss时，也是先计算出所有正样本anchor boxes和所有负样本anchor boxes的classification loss，但是size_average参数设置为False，然后从所有的正负样本中找出所有的困难样本。

ingore（classification target=-1）的classification loss=0

然后取出所有的正样本的loss，并记录当前batch size图像中positive examples总数，再对所有的负样本的classification loss进行排序，取出前3*（num positive examples）个负样本，这是因为负样本的个数要比正样本多出很多。

也就是说，SSD训练过程中的正负样本比例是1：3，只对负样本进行了困难样本挖掘，不对正样本进行困难样本挖掘，这样做的主要原因在于，设置IOU_max>0.5做为正样本，或者说在众多的anchor boxes中，正样本的个数很少，大多数都是负样本，这样会带来严重的类别不平衡问题，故而设定固定比例，取出较为困难（体现在classification loss大）的负样本，计算classification loss。在每次训练过程中的困难负样本都不一样，故而称之为在线困难样本挖掘（因为每次模型参数不一样，negative examples的classification loss排序不同）

class SSDLoss(nn.Module):#损失函数
    def __init__(self, num_classes):
        super(SSDLoss, self).__init__()
        self.num_classes = num_classes#类别总数，对于VOC数据集而言，是21类

    def _hard_negative_mining(self, cls_loss, pos):
        '''Return negative indices that is 3x the number as postive indices.

        Args:
          cls_loss: (tensor) cross entroy loss between cls_preds and cls_targets, sized [N,#anchors].  分类损失值
          pos: (tensor) positive class mask, sized [N,#anchors].

        Return:
          (tensor) negative indices, sized [N,#anchors].
        '''
        cls_loss = cls_loss * (pos.float() - 1)   #对于正样本，损失值为0，得到对于负样本计算出的损失值，损失值越大的负样本，cls_loss值越小
        #正样本损失值   0
        #负样本损失值=之前的负样本损失值*（-1）
        #这是因为_hard_negative_mining只返回所有的负样本classification loss
        #从所有的负样本中采样出前（3*num_positive）个负样本的loss
        #这些负样本的classification loss最大，是困难的负样本

        _, idx = cls_loss.sort(1)  # sort by negative losses
        '''
       cls_loss: [N,#anchors]  正样本的损失值为0，对于负样本，损失值越大，cls_loss越小
       tensor.sort方法返回sort之后的按升序排列的tensor和对应的indices
       对每一行，遍历所有的列，则得到的每一行按照升序排列，即对于每个input images，得到其按照升序排列的分类损失idx
       
       idx同样是[N,#anchors].的tensor，其中的每一行的值范围为  [0,1,2,……,8732]    
       表示当前input image 的所有anchors的负样本的分类损失 由大到小的索引排序
       
       '''
        _, rank = idx.sort(1)      # [N,#anchors]

        num_neg = 3*pos.sum(1)  # [N,]
        #num_neg为长度为batch size 的tensor，其中的每个元素表示3*当前input image中的正样本个数



        neg = rank < num_neg[:,None]   # [N,#anchors]  neg中的数值为1或者0  如果是hard  negative examples，则对应位置处的值为1

        '''
        对于当前batch size张图像中的每一张（每一张图像中的正样本不同）
        找到是当前图像中正样本数量3倍的负样本，并且固定数量的负样本是通过在线困难样本挖掘得到的
        这主要是为了解决计算分类损失函数时样本不均衡的问题，因为比如说SSD300这种模型中8732个default boxes
        中的正样本数量很少（与ground  truth 的overlap大于0.5,在box_coder.encode函数中设置）
        为了保证在同一张图像中的正负样本比例在1：3，故而使用在线困难样本挖掘（在线指的是在训练过程中，这意味着
        在每次训练过程中，每次挖掘到的困难负样本可能是不同的，要根据网络模型预测的输出值决定）
        算法如下：
        首先取出所有的负样本，对于当前batch_size*#anchors  ，对于每一行（每张训练图像）的分类损失值进行排序
        按照当前图像中正样本的数量的3倍取出loss值排在前面的负样本）
        负样本的分类损失值计算：np.log(p)  小    p小，就是说对于负样本预测为背景类的概率值小，就是预测为前景的概率值大
        这些是很容易被分类错的负样本，被称为困难负样本，这些样本的loss值很大，对于网络模型的参数更新非常有效
        而那些很容易就能被分类正确的负样本对于最终权值更新效果不大，故而舍弃
        '''
        return neg

    def forward(self, loc_preds, loc_targets, cls_preds, cls_targets):
        '''Compute loss between (loc_preds, loc_targets) and (cls_preds, cls_targets).
        计算分类损失和回归损失

        Args:
          loc_preds: (tensor) predicted locations, sized [N, #anchors, 4].
          对于当前batch size的图像所预测出来的localization N=batch_size,#anchors表示default boxes的数量
          loc_targets: (tensor) encoded target locations, sized [N, #anchors, 4].
          cls_preds: (tensor) predicted class confidences, sized [N, #anchors, #classes].
          对于当前batch size的图像所预测出来的classification  N=batch_size,#anchors表示default boxe数量，#classes表示数据集类别总数
          cls_targets: (tensor) encoded target labels, sized [N, #anchors].
          batch_size行，#anchors列，第i行第j列的元素表示对于第i个训练样本图像，SSD预测出来的第j个default boxes的GT类别标号（一个int类型整数）

        loss:
          (tensor) loss = SmoothL1Loss(loc_preds, loc_targets) + CrossEntropyLoss(cls_preds, cls_targets).
                              位置回归损失                              交叉熵分类损失
        '''
        pos = cls_targets > 0  # [N,#anchors]  pos中的数值是  0 1
        '''
       cls_targets是经过编码之后的classification ground truth
       表示与ground truth bounding boxes的IOU值最大或者大于一定的阈值的anchor boxes则会被认为是正样本，为1
       负样本为-1 
       
       在encoder阶段，
             
       '''

        batch_size = pos.size(0)#每个batch 中包含多少张训练图片
        num_pos = pos.sum().item()#对pos 2-Dtensor求和，得到当前batch size的训练图片中共有多少个anchor boxes为正样本
        #当前batch size 数量的输入图像中，positive examples（这里的正样本指的是default boxes而不是一整张图像）的数量

        #===============================================================
        # loc_loss = SmoothL1Loss(pos_loc_preds, pos_loc_targets)
        #===============================================================
        mask = pos.unsqueeze(2).expand_as(loc_preds)       # [N,#anchors,4]
        loc_loss = F.smooth_l1_loss(loc_preds[mask], loc_targets[mask], size_average=False)#只对正样本进行回归损失的计算
        #mask是# [N,#anchors,4]的3-dimension tensor，扩展的第2维度与之前的数值相同，即对于正样例（batch size中的第i幅图片中的第j个anchors）
        #mask[i,j,:]=1,如果为负样本则mask[i,j,:]=0
        #mask作下标则表示其中元素值为1的下标，即所有的正样本所在的下标（4）

        #===============================================================
        # cls_loss = CrossEntropyLoss(cls_preds, cls_targets)
        #===============================================================
        cls_loss = F.cross_entropy(cls_preds.view(-1,self.num_classes), \
                                   cls_targets.view(-1), reduce=False)  # [N*#anchors*num_classes,]
        '''
       cls_preds:[N,#anchors,num_classes]   view    cls_preds:[（N*#anchors）,num_classes]
       cls_targets：[N*#anchors,]
       计算多分类的交叉损失函数是cross_entropy,reduce参数为false，则返回值cls_loss维度为(N*#anchors)
       分别给出了这一个batch size中每张图像所有anchor boxes的分类损失值得
       '''
        cls_loss = cls_loss.view(batch_size, -1)#cls_loss:[N,#anchors]
        cls_loss[cls_targets<0] = 0  # set ignored loss to 0 现将所有负样本的分类损失变成0，这是为了使用hard negative mining算法挑选出困难负样本
        neg = self._hard_negative_mining(cls_loss, pos)  # [N,#anchors]
        cls_loss = cls_loss[pos|neg].sum()
        '''
        正样本具有分类损失和回归损失，SSD中的正样本包括最大的IOU和IOU值大于0.5的region proposal
        一般的负样本没有分类损失，也没有回归损失
        hard negative examples具有分类损失，不具有回归损失
        实际上训练时采用的正负样本是所有的正样本和所有的hard negative examples，   
       '''

        print('loc_loss: %.3f | cls_loss: %.3f' % (loc_loss.item()/num_pos, cls_loss.item()/num_pos), end=' | ')
        loss = (loc_loss+cls_loss)/num_pos
        return loss

这里想先记录一下，老板说在物体检测或者特定物体检测的问题中，数据增强中的尺度变换非常重要，可能直接对于最后的结果带来3%的提升，其次是随机旋转-10~10度，可能带来 1%的提升，最后是常规的水平方向翻转的操作。

on-line hard example mining in object detection

猜你喜欢