paper:Multicolumn Networks for Face Recognition
论文链接:https://arxiv.org/pdf/1807.09192.pdf
这是一篇set-to-set的paper,作者提出了一个Multicolumn Networks,想要同时学习视觉信息和内容信息。 在原来的网络上加了“visual” quality 和 “content” quality 两个模块。
Approach
文章的整体结构如图所示。非常清晰明白:
输入一个base的多张图片,每张分别进backbone,得到feature。
对于visual模块,每张图片由FC层出来,学到一个质量系数alpha。然后将各个feature加权表示得到Vm。这个就是我们平时看到的每张图片的质量信息。
对于content模块,每个feature都和Vm做一个concat。也是通过一个FC层,学到一个beta,表示relative contribution。这个能够表示每个feature和平均feature的差异。
最后通过加权,得到Vd。也就是融合之后的feature。
这个是alpha的,通过FC加一个sigmod函数。
beta的做法也是一样的。
最后这样计算出来Vd
Experiments
网络结构如图所示:
IJB-A实验结果:
MN-v是指加了第一个模块,MN-vc是两个模块都加上,可以看到content提升的非常明显。
主要看beta学到的东西:
从第一行可以看出,较低直觉质量的图,可能拥有更好的重要性,比如图1-3.
第三行中,图3-2和3-3的直觉质量是差不多的,但是重要性差距也比较大。
作者加这个beta,主要是想说明并不绝对是视觉质量越高的图效果越好。
也就是说,有的comp是有很多信息的。像这里的beta就能反映一些comp和pose的信息。