【人脸识别】set-to-set:Multicolumn Networks

paper:Multicolumn Networks for Face Recognition

论文链接:https://arxiv.org/pdf/1807.09192.pdf


这是一篇set-to-set的paper,作者提出了一个Multicolumn Networks,想要同时学习视觉信息和内容信息。 在原来的网络上加了“visual” quality 和 “content” quality 两个模块。

Approach

文章的整体结构如图所示。非常清晰明白:

输入一个base的多张图片,每张分别进backbone,得到feature。

对于visual模块,每张图片由FC层出来,学到一个质量系数alpha。然后将各个feature加权表示得到Vm。这个就是我们平时看到的每张图片的质量信息。

对于content模块,每个feature都和Vm做一个concat。也是通过一个FC层,学到一个beta,表示relative contribution。这个能够表示每个feature和平均feature的差异。

最后通过加权,得到Vd。也就是融合之后的feature。

image

这个是alpha的,通过FC加一个sigmod函数。

beta的做法也是一样的。

最后这样计算出来Vd

Experiments

网络结构如图所示:

 IJB-A实验结果:

MN-v是指加了第一个模块,MN-vc是两个模块都加上,可以看到content提升的非常明显。

主要看beta学到的东西:

从第一行可以看出,较低直觉质量的图,可能拥有更好的重要性,比如图1-3.

第三行中,图3-2和3-3的直觉质量是差不多的,但是重要性差距也比较大。

作者加这个beta,主要是想说明并不绝对是视觉质量越高的图效果越好。

也就是说,有的comp是有很多信息的。像这里的beta就能反映一些comp和pose的信息。

发布了49 篇原创文章 · 获赞 41 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/DL_wly/article/details/99057410
今日推荐