DualRC-Net（2020 NIPS）特征点检测与匹配论文笔记

test 计算流程

1. 总流程概述

（1） $I_a,I_b \longrightarrow \mathrm{Resnet+FPN} \longrightarrow \begin{cases} f_{a4},f_{b4}&(b,1024,h_{4},w_{4})\\ f_{a16},f_{b16}&(b,1024,h_{16},w_{16}) \end{cases}$

（2） $f_{a16},f_{b16} \longrightarrow \mathrm{NCNet匹配} \longrightarrow \mathrm{corr4d}:(b,1,h_{a16},w_{a16},h_{b16},w_{b16})$

（3） $\mathrm{corr4d} \longrightarrow 挑出I_a上匹配的较好的一批点 \longrightarrow P_{a1}:(b,h_{a16}*w_{a16}/2*4*4,2)$

（4.1） $\mathrm{corr4d}+P_{a1}+f_{a4},f_{b4} \longrightarrow \mathrm{DualRCNet匹配} \longrightarrow P_{b1},S_1$

（4.2） $\mathrm{corr4d}+P_{b1}+f_{a4},f_{b4} \longrightarrow \mathrm{DualRCNet匹配} \longrightarrow P_{a2},S_2$

（5） $\mathrm{Match_1}(P_{a1},P_{b1},S_1)+\mathrm{Match_2}(P_{a2},P_{b1},S_2) \longrightarrow 最终匹配结果$

2. 步骤细节

（1）Resnet-101 + FPN 提取特征图
在这里插入图片描述

输入一对图像 $I_a,I_b:(3,h_a,w_a),(3,h_b,w_b)$ ，上图中标红的 $f_3,f_{123}$ 经过 L2Norm 后用于后续步骤，记作 $f_{a16},f_{b16},f_{a4},f_{b4}$ ，下标代表下采样的倍率。

（2）NC-Net 计算特征匹配
计算流程和 NC-Net 一样，输入特征 $f_{a16},f_{b16}$ ，做点积运算得到初始匹配结果 $\mathrm{corr4d}:(b,1,h_{a16},w_{a16},h_{b16},w_{b16})$ ，后面就是经过 soft mutual nearest neighbour filtering + neighbourhood consensus network + soft mutual nearest neighbour filtering 得到最终的匹配结果。
具体细节可以看 NC-Net 博客，代码是完全一样的。

'''特征匹配计算流程'''
corr4d = self.FeatureCorrelation(feature_A2, feature_B2)
corr4d = MutualMatching(corr4d)
corr4d = self.NeighConsensus(corr4d)
corr4d = MutualMatching(corr4d)	

'''点积运算'''
b, c, hA, wA = feature_A.size()
b, c, hB, wB = feature_B.size()
feature_A = feature_A.view(b, c, hA * wA).transpose(1, 2)
feature_B = feature_B.view(b, c, hB * wB)
feature_mul = torch.bmm(feature_A, feature_B)  # [b, hA * wA, hB * wB]
correlation_tensor = feature_mul.view(b, hA, wA, hB, wB).unsqueeze(1)

（3）挑点
输入匹配得分 $\mathrm{corr4d}:(b,1,h_{a16},w_{a16},h_{b16},w_{b16})$ ，计算 $f_{a16}$ 每个特征的最高匹配得分 $b,1,h_{a16},w_{a16})$ ，对其进行排序选出得分较高的一半特征坐标 $b,h_{a16}*w_{a16}/2,2)$ ，将这些坐标扩充到 $f_{4}$ 的特征图上，也就是每个坐标扩充为 $4\times4$ 个坐标，得到 $I_a$ 上的一些坐标 $P_{a1}:(b,h_{a16}*w_{a16}/2*4*4,2)$ 。

（4）DualRC-Net 匹配
令 $n=h_{a16}*w_{a16}/2*4*4$ ，取出这些坐标的匹配结果 $b,n,h_{b16}*w_{b16})$ ，同时除以对 $d i m = 2$ 的求和作为标准化，也就是将占比作为匹配得分 $S_{16}:(b,n,h_{b16},w_{b16})$ 。
取出 $P_{a1}$ 坐标对应的 $f_{a4}$ 上的特征与 $f_{b4}$ 所有特征做点积运算，得到匹配得分 $S_4:(b,n,h_{b4},w_{b4})$ 。
将 $S_{16}$ 插值到和 $S_{4}$ 相同的分辨率，并与之相乘，得到匹配得分，取得分最高的为匹配点，得到 $P_{b1}:(b,n,2)$ ， $S_1:(b,n,1)$ 。
此时得到第一组匹配结果 $P_{a1},P_{b1},S_1$ ，也就是 $P_{a1}$ 的最佳匹配结果。将 $P_{b1}$ 按照上面的流程再来一遍得到第二组匹配结果 $P_{a2},P_{b1},S_2$ ，也就是 $P_{b1}$ 的最佳匹配结果。

（5）融合两组匹配结果
把两组结果中重复的匹配对挑出来，两组的得分相加作为最终的匹配得分，取得分前 $k = 2000$ 对匹配作为最终的匹配结果。

train 计算流程

1. 数据

'index':item,
'source_image': image1,
'target_image': image2,
'source_points': source_points,
'target_points': target_points,
'assignment': assignment

'''
source_points, target_points: 两幅图像的稀疏点对 [n,3], 3 对应(x,y,1)
assignment: torch.eye(n)
'''

这里看了下数据，每一对图像都是给了128对匹配点。

2. loss

基本和 test 的计算流程差不多，只是初始的 $P_{a1}$ 和 $P_{b1}$ 换成了训练数据中提供的 source_points 和 target_points，loss 的基本原理就是用网络输出的得分和根据 ground truth 生成的 one-hot 得分计算 MSE。
由于整个 loss 都是用的别的论文中现成的，所以描述比较少。公式还算比较清晰，loss 分为两个部分：
$\mathcal{L}=\mathcal{L}_{k}+\lambda \mathcal{L}_{o}$

$\mathcal{L}_{k}=\left\|\mathbf{M}^{A B}-\mathbf{M}_{g t}^{A B}\right\|_{F}+\left\|\mathbf{M}^{B A}-\mathbf{M}_{g t}^{B A}\right\|_{F}$

第一项是主要部分， $\mathbf{M}^{A B} \in \mathbb{R}^{N \times T}$ ， $T=H_{b} \times W_{b}$ ，其实就是 $P_{a1}$ 和 $f_{b4}$ 所有的匹配得分，ground truth 可以生成一个 one-hot 形式的匹配得分，从而类似分类问题计算 loss。

$\mathcal{L}_{o}=\left\|\mathbf{M}^{A B} \mathbf{M}^{A B^{\top}}-\mathbf{M}_{g t}^{A B} \mathbf{M}_{g t}^{A B^{\top}}\right\|_{F}+\left\|\mathbf{M}^{B A} \mathbf{M}^{B A^{\top}}-\mathbf{M}_{g t}^{B A} \mathbf{M}_{g t}^{B A^{\top}}\right\|_{F}$

第二项是一个正则化项，用来将匹配限制为一对一的。从公式分析，与自身转置相乘，ground truth 正常是一对一的，那么只有主对角线为1，其余位置都是0；输出的得分比较分散的话非主对角线位置会产生数值使 loss 增大，而得分经过 norm 操作主对角线应该是可以不产生 loss 的，所以这一项可以让得分集中，趋向于产生一对一的匹配结果。

这里的 one-hot 向量会在常规的基础上做一个高斯滤波，代码中选用的 $\begin{bmatrix} 1/16& 1/8& 1/16\\ 1/8& 1/4&1/8 \\ 1/16& 1/8& 1/16 \end{bmatrix}$