(Fewshot detection)Review:RepMet: Representative-based metric learning for few-shot detection

在这里插入图片描述

Ref

Something About Few-shot Detection

在这里插入图片描述

从图1中可以看出,本文中的few-shot detection中的detection并不是完整的detection过程,文章中的大致意思是:让现有的检测模型框架的 classification head 变得可以学习Distance Metric Learning 的类后验知识。

按照我自己的理解,其实是基于现有的检测模型框架,将detection模型中的classification head更改为few-shot 的classification分支,我认为这里可以是数据增强的方式来增加数据,也可以是修改model的方式来限制参数空间,还可以采用Algorithm的方式得到更好的优化路径。

本篇paper中采用的是通过优化模型,限制了参数的搜索空间,思路借鉴了Prototypical Network的分类思路。

提出Idea

在这里插入图片描述

与以往的Distance Metric Learning(DML)不同的是,如图2所示,作者采用采用一个end-to-end的训练流程同时学习embedding space,backbone network parametersrepresentative vectors of thr training categories。

Few-shot Learning 难以应用到detection的原因?

根据文章介绍,主要原因是,检测训练的时候只要一张图片,前景和背景的ROI比率严重失衡,导致数据非常严重的的unbalance。

网络结构

在这里插入图片描述

如图3所示,是本文提出的DML子网络模型,用于训练embedding spaces,class posterior distribution。

input为特征提取网络最后两层全连接层输出的特征向量。

在这里插入图片描述

图4表示DML子网络在Classification和few-shot detection中应用的场景。
在这里插入图片描述

图5表示分类的实验效果,K代表representatives的数量。

在这里插入图片描述

图6表示检测的实验效果。

实验结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ae5kimex-1576308239883)(/home/xyang01/Downloads/DeepinScreenshot_select-area_20191104120212.png?raw=true)]

表1表示分类的结果,可以看出对于花的分类效果不太好,可能是花的品种太多了吧

在这里插入图片描述

在这里插入图片描述

表2中的baseline是FPN-DCN检测器[3]的变体(把其最后的特征输出作为embedding,并且使用最近邻方法来分类兴趣区域);baseline+embed也是FPN-DCN检测器的变体;trained representatives表示使用由训练得到的representatives;episode representatives表示使用从样本的embedding向量中选择的representatives;实验中的embedding模块的结构是1024-256的两层全连接层,前一层加了Relu,后一层后加了L2 normalization;K = 5;每个epoch对representatives进行一次k-means聚类。

Conclusion

本文提出的方法基于 Distance Metric Learning, 很好的提高了分类的效果,但没有直接涉及到目标location,更多的是面向分类。

我非常想做实践部分,但是github上找到的代码可能还有写问题(Detection部分的代码会报错)

发布了741 篇原创文章 · 获赞 185 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/Fire_to_cheat_/article/details/103539669