人脸识别之AM-Softmax

论文:Additive Margin Softmax for Face Verification

在此篇论文中,作者提出了新的损失函数,AM_softmax。嗯,我们可以把AM-softmax看做是对A-softmax损失函数的改进,两者是很相似的,我刚写过A-softmax的博客,详情请点击这里。两者最大的不同之处在于:A-softmax是用margin m与相乘,而AM-softmax的margin则是,一个是角度距离(angular margin),一个是余弦距离(cosine margine)。当用传统的softmax作为损失函数的时候,角度距离和余弦距离是等价的,即:,但是当试着去推动边界的时候,余弦距离和角度距离就不再等价了。

回顾一下A-softmax损失函数,公式表示如下:


其中,,m通常是一个大于1的整数,是一个表示推动分类边界难度的超参数。相比较而言,AM-softmax定义更加简单和直观,。为了提高收敛速度,作者又引进一个超参数s,所以AM-softmax的最终形式为:



作者对additive margin做了一个直观的分析,用了一个二维特征作为例子,如图1所示,对一个具有二维的特征,正则化后,特征被表示在一个圆中,传统softmax的决策边界即是向量,那么;而AM-softmax是以决策区域替代决策边界,对于类别1的边界为向量,定义, 那么。更进一步假设所有的类别都具有相同的方差,是类别2的边界向量,那么,所以


图1:传统softmax的决策边界和AM-softmax的决策边界

作者还提出,特征是否正则化处理还取决于图片的质量,高质量的图片提取出来的特征范数比较大,低质量的图片提取出来的特征范数小,那么特征正则化(feature normalization)后,在后向传播的时候,低质量的图片特征会产生更大的梯度,也会获得网络更多的注意力,如下图所示,因此,对于低质量图片的数据集,特征正则化是最适合的。也因此设置s=30。





猜你喜欢

转载自blog.csdn.net/weixin_42111770/article/details/80690657
今日推荐