Deep Learning Based Registration文章阅读(三)《Reinforced Feature Points: Optimizing Feature Detection and》

Deep Learning Based Registration文章阅读(三)

《Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task》是CVPR2020年的文章。先上总体直观效果:RootSIFT是一个SIFT的归一化的变种,使得效果更加鲁棒,SuperPoint是目前在low-level task上state-of-art performance的框架。最下面是这篇文章提出的方法。
在这里插入图片描述

Motivation

1、目前很少有文章聚焦在特征点检测和描述这两方面,用一个完整的结构去实现。
2、之前的工作一般用一个low-level的匹配分数来评估特征点检测以及描述的效果,但是相关研究表明,这样的训练出的网络,在high-level的视觉任务中通常表现不好,泛化能力可能往往不如SIFT及其变种。

Objective

基于目前在low-level task上state-of-art performance的框架SuperPoint (研究表明它在H-Patches上效果远远优于SIFT,但是在一些high-level task上,例如估计图像对的本质矩阵上,效果比SIFT要差),通过设计学习特定任务的pipline来强化针对该任务的特征点检测和描述,需要注意的是,这个方法不局限于某个任务,而是可以通过改变学习任务,来学习适合对应任务的特征点检测和描述,这种用它干什么,就用什么去“强化”学习的思想比较符合主观的感觉,注意这里的“强化”学习应该就是通常意义的强化学习,因为后面loss的优化算法是强化学习的策略梯度算法。

Framework

在这里插入图片描述
框架的话,特征点检测和描述的两个子网络借鉴于SuperPoint (不然也没法用Pre-trained的权重),其中上面RANSAC等黑色的black是传统方法用来估计相对转换矩阵(相机姿态)的步骤,5-point solver笔者没有仔细了解,是一个经典的估计图像对本质矩阵的方法,结合RANSAC做outlier rejection,关于RANSAC在笔者的另一篇博客Deep Learning Based Registration文章阅读(一)《Content-Aware Unsupervised Deep Homography Estimation》中有相关介绍。关于框架主要强调三点:
1、在特征检测(选择)子网络中,继承了SuperPoint的结果,出来的概率图在绝大部分地方是0,只有比较少的点的概率值比较大,这样就有一个好处,就是在后面计算loss(期望形式)的时候需要遍历的情况就很少,后面提到loss,是一个loss的期望的形式,那就需要对每种点的选择以及匹配的情况计算概率,以及计算这个概率下的loss值,再做一个积分,离散情况就是一个加和。
2、在特征描述子网络中,没有“彻底”的匹配所有情况,而是用最近邻策略,每一个特征点,只找另一幅图像中特征描述向量最相似的那个点,作为matching,文中提到,当每一个特征点的候选匹配点多于一个时,对于结果的提升没有优势,但是关于这一点,没有呈现ablation study的结果。
3、第三点就是loss以及loss的优化过程:
在这里插入图片描述
loss就是一个期望的形式,选某5个点以及这5个点matching的情况下的概率,乘这种情况下的loss值,这里的概率是经过归一化后的。但是优化过程(上图第二个式子)是一个REINFORCE algorithm of Williams,这里给出论文链接Simple statistical gradient-following algorithms for connectionist reinforcement learning,笔者没看懂,是强化学习中的策略梯度算法。

Results

在这里插入图片描述
NG-RANSAC是一个learning-based RANSAC方法,outdoor和indoor代表是室内还是室外的数据集,LIFT是SIFT的是一个变种,AUC代表误差累积曲线下的面积,可以理解为误差处于多少以内的一个比例,越大越好。这里误差的角度是取相对转换矩阵中旋转角度误差和平移角度误差中的最大值。
在这里插入图片描述
这副图代表经过reinforce的SuperPoint和没有reinforce的SuperPoint的表现不一样,reinforce的过程又让网络学到了一些东西,使得估计出来的相对转换矩阵误差更小。
在这里插入图片描述
这幅图是想说明,经过reinforce的SuperPoint检测到的特征点以及matching数据均变少了,大概可以说明一个“对特征点要求提高的”概念,同时对于估计出来的相对转换矩阵和ground truth的相对转换矩阵的inliers比重都提升了,说明这个特征点的“质量”提升了。

猜你喜欢

转载自blog.csdn.net/qq_35898332/article/details/115003366