解决什么问题

少训练样本的分割

本文创新点\贡献

将prototype的提取和无参数的度量学习分开了

优点：

不需要额外学习参数，不容易过拟合

啥意思，那一块不需要参数啊，度量学习？如何实现的呢？
prototype嵌入和预测都是在计算好的特征图上进行的，没有额外的前向传播
简单易用，更弱的注释也可以，bbox或涂鸦？这尼玛还能分割了？

亮点

利用了prototypes上的度量学习，无参数
提出prototypes对齐正则化，充分利用support的知识
对于带有弱注释的少样本直接使用

前人方法

Few-shot learning：

输入放入神经网络，执行加权最近邻匹配来分类
用一个向量特征来表示每个类
独立的模组直接学习support特征和query特征的联系

Few-shot segmentation：

从support set生成一些用来调整query set的分割处理
将提取的support特征和query对方到一起，然后decoder，来生成分割结果
使用mask average pool从suppor set里提取前后景信息

本文IDEA来源

Prototypical networks for few-shot learning的延申

方法

在这里插入图片描述

方法概述

用同一个backbone来提取support和query的深度特征，然后使用masked average pooling从support的特征将不同的前景物体和背景嵌入不同的prototypes中，每个prototype表示对应的类别，这样query图像的每个的像素通过参考离它的嵌入表达最近的特定类的prototype来标记，得到query的预测mask后；训练的时候，得到mask后，再将刚才提取的query feature和mask作为新的“support set”，将之前的support set作为新的“query set”，再用“support set”对“query set”做一波预测，然后再算一个loss

prototype紧凑且鲁棒的对每个语义类别进行表达；mask标记那块就是无参度量学习，通过和嵌入空间的逐像素匹配来执行分割

在这里插入图片描述
$算法总览，公式编号和顺序相同$

Alignment

在这里插入图片描述
执行一个prototype对齐正则化，用query和他的mask建立新的support，然后用这个来预测原始的support set的分割，实验证明能鼓励query的prototype对齐他们的support的prototype，只有训练的时候这么做

反向再推一次，看看是否真的相似

图像说明：
support的嵌入特征是圆形，query图像是三角形，对每个类学习prototype(蓝色和黄色的)，query通过在嵌入空间中将他的特征和最近的prototype进行匹配，来进行分割，虚线就是匹配，右图进行了prototype对齐正则化，就是通过从support到query的反向对齐。

Prototype learning

方法的选择：
使用support的mask注释分开学习前景和后景的prototypes，对于什么时候融合mask有两种策略，一种是早融合，一种是晚融合：

早：在送入网络提取器之前，把mask和support图片融合
晚：分别把mask和提取出来的前/后景的特征融合在一起

作者选择晚输入，能保证两个特征提取器的输入一致性(query是没有mask的)

操作：
给定support set $S_i = \{ (I_{c,k},M_{c,k})\}$ ，用 $F_{c,k}$ 表示图片的输出特征图， $c$ 表示类别的index， $k=1,...,K$ 是support图片的index， $c$ 类别的prototype用下式计算：
$p_c = \frac{1}{K}\sum_k\frac{\sum_{x,y}F^{(x,y)}_{c,k}L[M^{(x,y)}_{c,k}=c]}{\sum_{x,y}L[M^{(x,y)}_{c,k}=c]}$

其中 $(x,y)$ 表示空间位置的index， $L$ 根绝式子内容输出1还是0

背景的prototype计算：
$p_{bg} = \frac{1}{CK}\sum_{c,k}\frac{\sum_{x,y}F^{(x,y)}_{c,k}L[M^{(x,y)}_{c,k}\not \in C_i]}{\sum_{x,y}L[M^{(x,y)}_{c,k}\not \in C_i]}$

prototype通过无参的度量学习来优化

Non-parametric metric learning

通过计算每个位置的query特征向量和每个support求出的类的protorype的距离来分类，从而实现分割，然后做softmax得到包括背景在内的可能性映射 $\tilde{M}_q$ ，设置 $P=\{p_c|c\in C_i\} \cup \{p_{bg}\}$ ， $F_q$ 是query的特征图，对于每个 $p_j \in P$ ， $d$ 表示距离计算函数， $j$ 表示类别，有：
$\tilde{M}^{(x,y)}_{q;j} = \frac{\exp(-\alpha d(F^{(x,y)}_q,p_j))}{\sum_{p_j\in P}\exp(-\alpha d(F^{(x,y)}_q,p_j))}$
所以最后的mask为：
$\tilde{M}^{(x,y)}_{q} = \argmax_j\tilde{M}^{(x,y)}_{q;j}$
$d$ 可以是cosin距离或者平方的欧氏距离

作者做实验发现cosin更稳定更好，可能是因为有边界，参数 $\alpha$ 直接设置为20，改动这个提升不大

这感觉没什么东西啊，就是计算距离？

分割loss：
$L_{seg} = -\frac{1}{N}\sum_{x,y}\sum_{p_j \in P} L[M^{(x,y)} = j]\log\tilde{M}^{(x,y)}_{q;j}$

其中 $M_q$ 是query图片的真实mask， $N$ 是空间位置的总数

Prototype alignment regularization (PAR)

使用公式1和公式2来根据query特征来获得prototypes: $\overline{P}=\{ \overline{p}_c|c \in C_i \} \cup \{\overline{p}_{bg} \}$ ，然后用无参度量学习来预测support图片的mask，然后计算 $L_{PAR}$