Ausführliche Erklärung des U2-net-Netzwerks

Lernvideo: Erklärung der U2Net-Netzwerkstruktur_哔哩哔哩_bilibili

Name des Papiers: U2-Net: Goging Deeper with Nested U-Structure for Salient Object Detetion

Link zum Herunterladen des Papiers: https://arxiv.org/abs/2005.09007

Offizieller Quellcode (Pytorch-Implementierung): https://github.com/xuebinqin/U-2-Net

einführen

U2-net ist ein Artikel, der 2020 von der University of Alberta über CVPR veröffentlicht wurde. Das in diesem Artikel vorgeschlagene U2-Netz wird für die Erkennung hervorstechender Objekte (SOD), die Aufgabe zur Erkennung hervorstechender Ziele, vorgeschlagen. Die Aufgabe zur Erkennung hervorstechender Ziele ist der Aufgabe zur semantischen Segmentierung sehr ähnlich, mit der Ausnahme, dass die Aufgabe zur Erkennung hervorstechender Ziele eine binäre Klassifizierungsaufgabe ist.Ihre Aufgabe besteht darin, das attraktivste Ziel oder den attraktivsten Bereich im Bild zu segmentieren, sodass es nur zwei Arten gibt: den Vordergrund und Hintergrund.

Wie oben gezeigt, handelt es sich um den Vergleich der Ergebnisse dieser Aufgabe

Die erste Spalte ist das Originalbild, die zweite Spalte ist GT, die dritte Spalte ist das Ergebnis von U2-net, die vierte Spalte ist das Ergebnis von Lightweight U2-net, und die anderen Spalten sind andere Mainstream-Netzwerkmodelle zur Erkennung von herausragenden Zielen. Es ist ersichtlich, dass sowohl U2-net als auch das leichte U2-net besser sind als andere Modelle.

I. Einleitung

Die SOD-Aufgabe besteht darin, das attraktivste Ziel oder die attraktivste Region im Bild zu segmentieren, was der binären Klassifizierungsaufgabe bei der semantischen Segmentierung entspricht

Dies ist ein Diagramm, das die Ergebnisse von U2-net und anderen Mainstream-Modellen auf dem ECSSD-Datensatz vergleicht, wobei hauptsächlich die Größe des müden Modells und der MaxF-Messindex verglichen werden

Durch Vergleich kann festgestellt werden, dass U2-net unabhängig von der Modellgröße oder dem maxF-Maß gut funktioniert.Der rote Stern in der Abbildung ist ein Standardmodell, und der blaue Stern ist ein leichtes Modell.

2. Analyse der Netzwerkstruktur

Wie in der Abbildung gezeigt, stellt die Netzwerkstruktur eine große U-Netzstruktur dar. Jeder Block ist ebenfalls eine U-Netzstruktur, daher wird es als ᵄ82-Netzstruktur bezeichnet

Im Originaltext nannte der Autor jeden Block ReSidual U-Block

图中block其实分为两种,一种是Encoder1到Encoder4加上Decoder1到Decoder4这八个结构相似,Encoder5与Encoder6,Decoder5又是另外一种结构。

第一种block

在Encoder阶段,每通过一个block后都会通过最大池化层下采样2倍,在Decoder阶段,通过每一个block前都会用双线性插值进行上采样

论文作者给出了block的结构,如下图

这个block称为RSU-7,7是因为有7层,绿色代表卷积+BN+ReLU,蓝色代表下采样+卷积+BN+ReLU,紫色代表上采样+卷积+BN+ReLU,在RSU-7中下采样了5次,也即把输入特征图下采样了32倍,同样在Decoder阶段上采样了32倍还原为原始图像大小。

下图为视频作者为了更清楚的解释RSU-7,重新绘制了它的结构,重新加入了shape这个特征,让结构更加清晰,具体细节可以参考U-net网络。

事实上RSU-7对应的是整体网络结构中的Encoder1和Decoder1,RSU-6对应的是整体网络结构中的Encoder2和Decoder2,RSU-5对应的是整体网络结构中的Encoder3和Decoder3,RSU-4对应的是整体网络结构中的Encoder4和Decoder4(如下图所示),相邻block差的是一次下采样和上采样,例如RSU-7里面是下采样32倍和上采样32倍,RSU-6是上采样16倍和下采样16倍。

第二种block

Encoder5和Decoder5,Encoder6使用是这个第二种block,由于经过了几次下采样,原图已经很小了,所以不再进行下采样,若再进行下采样,恐怕会丢失很多信息,这个block称为RSU-4F,主要是再RSU-4的基础上,将下采样和上采样换成了膨胀卷积,整个过程中特征图大小不变。

最后

将每个阶段的特征图进行融合,主要是收集Decoder1、Decoder2、Decoder3、Decoder4、Decoder5、Encoder6的输出结果,对他们做3*3的卷积,卷积核个数为1,再用线性插值进行上采样恢复到原图大小,进行concat拼接,使用sigmoid函数输出最终分割结果。

三、损失计算

如图,为计算的损失公式,在这里M=6,表示Decoder1、Decoder2、Decoder3、Decoder4、Decoder5、Encoder6有六个输出,Wfuse代表的是最终的预测概率图的损失

四、评价准则

如图为显著性目标检测的评价指标

Precision(精准度)

Recall(召回率)

Precision和Recall往往是一对矛盾的性能度量指标;

提高Precision == 提高二分类器预测正例门槛 == 使得二分类器预测的正例尽可能是真实正例;

提高Recall == 降低二分类器预测正例门槛 == 使得二分类器尽可能将真实的正例挑选出来;

precision代表准,recall代表全

五、DUTs数据集

DUTs数据集简介:

Ich denke du magst

Origin blog.csdn.net/SL1029_/article/details/128772941
Empfohlen
Rangfolge