Learning to Navigate for Fine-grained Classification

创新点

  • 整个方法建立在有区分性的局部对更好地特征化目标是有用的,融合有区分性局部信息和整幅图像的信息会得到更好的分类结果,这个假设合情合理。
  • 传统的定位有区分性局部的方法,缺少一种能保证模型集中在正确区域的机制
  • 直观上,有较高概率是真实类别的局部区域,应该包含更多的对象特征语义,用一个loss函数来保证,分类概率和选择的局部区域有着相同的顺序,来实现上述的保证机制
  • 将 FPN引入到细粒度分类问题中,用来减少人工标注的需要
  • 导航到有区分性局部可以看做是提出候选区域的问题
  • 强化学习(N-T)+ 目标检测(RPN、FPN、anchor)+ 分类(S)
  • RPN提出区域候选,FPN结合多层(不同卷积层)、多尺寸(不同感受野)特征,N-T通过 rank loss 选出最有区分性的区域,最后融合分类

算法流程

优化 N-net

  • 在这里插入图片描述
  • Training method of Navigator network. For an input image, the feature extrac-
    tor extracts its deep feature map, then the feature map is fed into Navigator network
    to compute the informativeness of all regions. We choose top-M (here M = 3 for expla-
    nation) informative regions after NMS and denote their informativeness as I 1 , I 2 , I 3 {I 1 ,I 2 ,I 3 } .Then we crop the regions from the full image, resize them to the pre-defined size and
    feed them into Teacher network, then we get the confidences C 1 , C 2 , C 3 . {C 1 ,C 2 ,C 3 }. We optimize Navigator network to make I 1 , I 2 , I 3 {I_1, I_2, I_3} and C 1 , C 2 , C 3 {C_1, C_2, C_3} having the same order
  • 训练 N-net 的方法,对于一张输入图片,首先用 resnet 做特征提取器,提取图像的 feature map
  • 然后,上述提取的 feature map 被喂到 N-net 中,去计算所有区域的 informativeness(用一个 rpn-net 提取的特征结果作为 informativeness,是否合理)
  • 基于 informativeness 进行 NMS,选出 topn 个 regions
  • 从原图中把 topn informativeness region 抠出来,缩放到预定义的尺寸(224 x 224)
  • 把抠出来的区域喂到 T-net 中,得到置信度 C(用一个 2048 x num_class)的全连接层实现
  • 通过一个 rank loss 优化 N-net 使 I 1 , I 2 , I 3 {I_1, I_2, I_3} C 1 , C 2 , C 3 {C_1, C-2, C_3} 有相同的顺序,确保 navigate 到信息丰富的区域(信息丰富和有区分性局部能否起到相同的作用?)

S-net

-在这里插入图片描述

  • concatenate topn informative region feature map with input image‘s feature map,用( ( (2048 x (n+1)) ,num_class) 的全连接层实现分类

体会

  • 阅读大量论文,将相关、相近问题中的方法,合理结合起来,可能会产生一些有用的结果
  • 文中的 anchor 的尺寸和大小都是固定的,可以考虑,设计自动调整的大小和尺寸

[1] : https://github.com/yangze0930/NTS-Net

猜你喜欢

转载自blog.csdn.net/xyz2107605729/article/details/88649925
今日推荐