Learning What Not to Segment: A New Perspective on Few-Shot Segmentation学习笔记

cvpr2022
extension://bfdogplmndidlpjfhoijckpakkdjkkil/pdf/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2203.07615.pdf

0.小样本语义分割开山之作

One-Shot Learning for Semantic Segmentation

0.1元学习

在这里插入图片描述

0.1.1和普通机器学习区别

在这里插入图片描述
学习预处理数据集DADA;学习网络结构NAS
训练样本中的训练集一般称作support set,训练样本中的测试集一般叫做query set。普通的机器学习是规定好了映射方式,然后通过大量的数据和训练去寻找映射方式的超参,然后通过测试集来验证泛化能力。
在这里插入图片描述
而在元学习中训练单位是任务,一般有两个任务分别是训练任务(Train Tasks),和测试任务(Test Task)。
训练任务:
1.训练任务中给定h个子训练任务,首先通过这h个子任务的 Support set 训练 ,分别训练出针对各自子任务的模型参数θ
2.然后用不同子任务中的 Query set 分别去测试θ性能,然后计算损失
3.整合损失L(φ)=l 1 +…+l k +…+l h
4.然后用梯度下降法去求出超参数φ 跟新θ
在这里插入图片描述
在这里插入图片描述

测试任务:
在这里插入图片描述

0.2One-Shot Learning for Semantic Segmentation

0.2.1网络结构

条件分支采用VGG,分割分支采用FCN-32s网络。非对称的结构
在这里插入图片描述

0.2.2条件分支

条件分支对应的是支持集图像,该图像包含一张目标物体的二元掩码图(一个通道)和一张原图(RGB三个通道),首先经过掩码操作,将原图中目标物体所在区域提取出来。然后经过VGG网络进行特征提取,再利用全连接层将其转化为长度为1000的特征向量。最后经过一个“权重哈希(Wight Hashing)”操作将其转化为长度是4097的一维向量(w(长度为4096)和b (长度为1))。所谓的权重哈希操作是利用一个固定权重的全连接层来实现的,权重计算方法如下式

在这里插入图片描述
流程:
二元掩码图(单通道)+原图(RGB三通道)——VGG特征提取——全连接层转长度1000特征向量——权重哈希(wight hashing)——4097的一维向量

0.2.4分割分支

流程:
图片——FCN-32s——4096的特征图F——利用条件分支得到一维向量作为权重和偏置对F做逻辑回归——双边线性插值上采样——恢复原尺寸大小——以0.5为阈值对查询图片进行掩码操作——得到分割图像
在这里插入图片描述

-------------Learning What Not to Segment: A New Perspective on Few-Shot SegmentatioN------

1.摘要

现有问题:现有模型往往存在基类偏执即不需要分割的区域(前后景),而非理想化的类别无关

解决方法:在传统的FSS( few-shot segmentation)模型(元学习器)上增加了一个分支(基学习器,svm等)来明确地识别基类的目标,即不需要分割的区域,作者把这种结构叫做BAM即base and the meta。然后,对两个学习器并行输出的粗结果进行自适应集成,得到精确的分割预测。
其次元学习器对画质要求比较高,而基学习器的分割结果比较稳定。作者受到到风格迁移领域的影响提出了用场景差异评估来调整:使用格拉姆矩阵来衡量两个矩阵的差值(两个图像的特征向量的Gram矩阵的差异较小,就可以认定这两个图像风格是相近 的),用Frobe-nius norm来衡量特征的总体指标来进行调整
在这里插入图片描述

2.BAM

BAM由三个主要组件组成,包括两个互补的学习者(即基础学习者和元学习者)和一个集成模块。两个具有共享特征提取主干的学习器分别用于识别基础类和新类。然后,集成模块接收它们的粗预测和一个调整因子ψ来抑制基类的虚激活区域,从而产生精确的分割。
请添加图片描述

2.1Base Learner

使用的是别人已经训练好的图像分割网络,进行粗糙分割,和别人没什么不同点,con提取特征,softmax进行分类。不同点时使用交叉熵来做损失函数

2.2meta learner

再通过卷积提取到低纬度的特征之后,支持集的特征要和mask做一个map后再和查询集的特征拼接
在这里插入图片描述
元学习器使用的时二值交叉熵函数bce

2.3组合

计算支持和查询集的Gram矩阵
请添加图片描述
然后用f范数来计算调整因子ψ
Fψ和Fensemble是带有特定初始参数的1×1卷积运算。前者的目标是调整元学习者的粗结果,而后者的目标是整合两个学习者。⊕表示沿通道维的拼接操作。
请添加图片描述

3.展望

图像分割的内容之前仅仅了解过mask rcnn,所以没什么想法。
感觉这种方法会很慢,需要进行两种分割再融合

猜你喜欢

转载自blog.csdn.net/qq_41950533/article/details/125596699