U2-netネットワークの詳しい説明

学習ビデオ: U2Net ネットワーク構造の説明_哔哩哔哩_bilibili

論文名: U2-Net: 顕著なオブジェクト検出のための入れ子になった U 構造を使用してさらに深く掘り下げる

論文のダウンロードリンク: https://arxiv.org/abs/2005.09007

公式ソースコード (Pytorch 実装): https://github.com/xuebinqin/U-2-Net

導入

U2-net は、アルバータ大学が 2020 年に CVPR について発表した記事です。この記事で提案する U2-net は、顕著なターゲット検出タスクである、Salient Object Detection (SOD) 用に提案されています。顕著なターゲット検出タスクはセマンティック セグメンテーション タスクと非常に似ていますが、顕著なターゲット検出タスクはバイナリ分類タスクである点が異なります. そのタスクは、画像内の最も魅力的なターゲットまたは領域をセグメント化することであるため、前景の 2 つのタイプしかありません:と背景。

上のように、このタスクの結果の比較です

1 列目は元の画像、2 列目は GT、3 列目は U2-net の結果、4 列目は軽量 U2-net の結果、その他の列はその他の主流の顕著なターゲット検出ネットワーク モデルです。 U2-net と軽量 U2-net の両方が他のモデルよりも優れていることがわかります。

I.はじめに

SOD タスクは、画像内の最も魅力的なターゲットまたは領域をセグメント化することです。これは、セマンティック セグメンテーションにおけるバイナリ分類タスクと同等です。

ECSSDデータセット上でU2-netと他の主流モデルの結果を比較したグラフで、主に疲労モデルのサイズとMaxF測度指数を比較したものです

比較すると、U2-net はモデルのサイズや maxF の測定値に関係なくうまく機能していることがわかります (図の赤い星は標準モデル、青い星は軽量モデルです)。

2. ネットワーク構造の分析

図に示すように、ネットワーク構造は大規模なU-net構造であり、各ブロックもU-net構造であるため、ᵄ82-net構造と呼ばれます

原文では、著者は各ブロックをReSidual U-blockと呼びました

图中block其实分为两种,一种是Encoder1到Encoder4加上Decoder1到Decoder4这八个结构相似,Encoder5与Encoder6,Decoder5又是另外一种结构。

第一种block

在Encoder阶段,每通过一个block后都会通过最大池化层下采样2倍,在Decoder阶段,通过每一个block前都会用双线性插值进行上采样

论文作者给出了block的结构,如下图

这个block称为RSU-7,7是因为有7层,绿色代表卷积+BN+ReLU,蓝色代表下采样+卷积+BN+ReLU,紫色代表上采样+卷积+BN+ReLU,在RSU-7中下采样了5次,也即把输入特征图下采样了32倍,同样在Decoder阶段上采样了32倍还原为原始图像大小。

下图为视频作者为了更清楚的解释RSU-7,重新绘制了它的结构,重新加入了shape这个特征,让结构更加清晰,具体细节可以参考U-net网络。

事实上RSU-7对应的是整体网络结构中的Encoder1和Decoder1,RSU-6对应的是整体网络结构中的Encoder2和Decoder2,RSU-5对应的是整体网络结构中的Encoder3和Decoder3,RSU-4对应的是整体网络结构中的Encoder4和Decoder4(如下图所示),相邻block差的是一次下采样和上采样,例如RSU-7里面是下采样32倍和上采样32倍,RSU-6是上采样16倍和下采样16倍。

第二种block

Encoder5和Decoder5,Encoder6使用是这个第二种block,由于经过了几次下采样,原图已经很小了,所以不再进行下采样,若再进行下采样,恐怕会丢失很多信息,这个block称为RSU-4F,主要是再RSU-4的基础上,将下采样和上采样换成了膨胀卷积,整个过程中特征图大小不变。

最后

将每个阶段的特征图进行融合,主要是收集Decoder1、Decoder2、Decoder3、Decoder4、Decoder5、Encoder6的输出结果,对他们做3*3的卷积,卷积核个数为1,再用线性插值进行上采样恢复到原图大小,进行concat拼接,使用sigmoid函数输出最终分割结果。

三、损失计算

如图,为计算的损失公式,在这里M=6,表示Decoder1、Decoder2、Decoder3、Decoder4、Decoder5、Encoder6有六个输出,Wfuse代表的是最终的预测概率图的损失

四、评价准则

如图为显著性目标检测的评价指标

Precision(精准度)

Recall(召回率)

Precision和Recall往往是一对矛盾的性能度量指标;

提高Precision == 提高二分类器预测正例门槛 == 使得二分类器预测的正例尽可能是真实正例;

提高Recall == 降低二分类器预测正例门槛 == 使得二分类器尽可能将真实的正例挑选出来;

precision代表准,recall代表全

五、DUTs数据集

DUTs数据集简介:

おすすめ

転載: blog.csdn.net/SL1029_/article/details/128772941