论文阅读：U-Net++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation

在这里插入图片描述

论文地址： https://arxiv.org/pdf/1912.05074.pdf

最先进的医学图像分割模型是U-Net和全卷积网络(FCN)的变体。尽管这些模型取得了成功，但它们有两个局限性：（1）的最优深度是先验未知的，需要广泛的架构搜索或不同深度模型集成；（2）跳跃连接施加了不必要的限制性融合方案，只能在编码器和解码器子网络的相同尺度特征图上聚合。为了克服这两个限制，我们提出了一种新的语义和实例分割神经结构U-Net++，通过（1）与不同深度的u型网络的有效集成，部分共享编码器，同时使用深度监督协同学习；（2）重新设计跳跃连接，在解码器子网络上聚合不同语义尺度的特征，形成高度灵活的特征融合方案；（3）设计了一种剪枝方案来加速U-Net++的推理速度。我们使用六种不同的医学图像分割数据集对U-Net++进行了评估，涵盖了多种成像方式，如计算机断层扫描(CT)、磁共振成像(MRI)和电子显微镜(EM)，并证明（1）U-Net++在不同数据集和主干架构的语义分割任务中始终优于基线模型；（2）U-Net++提高了不同大小对象的分割质量——对固定深度U-Net的改进；（3）Mask RCNN++(使用U-Net++设计的掩码R-CNN)在实例分割任务上优于原始的掩码R-CNN；和（4）修剪的U-Net++模型实现了显著的加速，而只显示出适度的性能下降。我们的实现和预训练的模型可以在https://github.com/MrGiovanni/U-NetPlusPlus上找到。

关键词：神经元结构分割、肝脏分割、细胞分割、细胞核分割、脑肿瘤分割、肺结节分割、医学图像分割、语义分割、实例分割、深度监督、模型剪枝。

1、 INTRODUCTION

编解码器网络广泛应用于现代语义和实例分割模型[1]、[2]、[3]、[4]、[5]、[6]。他们的成功很大程度上归因于他们的跳跃连接，结合深、语义、粗粒度特征地图从解码器子网络浅，低层、细粒度特征地图从编码器子网络，并已被证明是有效的恢复目标对象的细粒度细节[7]，[8]，[9]甚至在复杂的背景[10]，[11]。跳跃连接在实例级分割模型的成功中也起到了关键作用，如[12]，[13]，其中的想法是分割和区分期望对象的每个实例。

然而，这些用于图像分割的编码器-解码器架构有两个限制。首先，编码器-解码器网络的最佳深度可以因不同应用程序而异，这取决于任务的难度和可用于训练的标记数据的数量。一种简单的方法是分别训练不同深度的模型，然后在推理时间[14]、[15]、[16]期间对生成的模型进行集成。然而，从部署的角度来看，这种简单的方法效率很低，因为这些网络并不共享一个共同的编码器。此外，经过独立训练，这些网络并不享受多任务学习[17]，[18]的好处。其次，在编码-解码器网络中使用的跳跃连接的设计是不必要的限制，要求相同尺度编码器和解码器特征映射的融合。虽然作为一种自然设计而引人注目，但来自解码器和编码器网络的相同尺度的特征图在语义上是不同的，而且没有可靠的理论可以保证它们是特征融合的最佳匹配。

在本文中，我们提出了U-Net++，一种新的通用图像分割架构，旨在克服上述限制。如图1(g)所示，U-Net++由不同深度的u型网组成，其解码器通过重新设计的跳跃连接以相同的分辨率密集连接。在U-Net++中引入的体系结构更改具有以下优点。首先，U-Net++不轻易选择网络深度，因为它在其体系结构中嵌入了不同深度的u型网。所有这些u-nets部分共享一个编码器，而它们的解码器则交织在一起。通过在深度监督下训练U-Net++，所有组成的U-Net同时被训练，同时受益于共享的图像表示。该设计不仅提高了整体分割性能，而且还可以在推理期间进行模型剪枝。其次，U-Net++不受不必要的限制性跳跃连接的限制，在这些连接中，只有来自编码器和解码器的相同尺度的特征映射可以被融合。在U-Net++中引入的重新设计的跳跃连接在解码器节点上呈现了不同尺度的特征图，允许聚合层决定沿着跳跃连接携带的各种特征图应该如何与解码器特征图融合，在同一分辨率下组成的U-Net部件。我们已经在6个分割数据集和多个不同深度的骨干上广泛地评估了U-Net++。我们的研究结果表明，通过重新设计的跳跃连接和深度监督驱动的U-Net++，可以在语义和实例分割方面的性能显著提高。与经典的U-Net架构相比，U-Net++的显著改进归因于重新设计的跳跃连接和扩展解码器所提供的优势，它们共同使图像特征能够在水平和垂直的网络中逐渐聚合。
在这里插入图片描述

总之，我们做出了以下五个贡献：

我们在U-Net++中引入了一个内置的不同深度的U-网集成，提高了不同大小对象的分割性能——对固定深度U-Net的改进(见II-B节)。
我们重新设计了U-Net++中的跳跃连接，使解码器能够灵活的特征融合——这是对U-Net中限制性跳跃连接的改进，后者只需要相同规模的特征图融合(见II-B节)。
我们设计了一个方案来修剪一个训练过的U-Net++，加速其推理速度，同时保持其性能(见第IV-C节)。
我们发现，同时训练嵌入在U-Net++体系结构中的多深度U-Nets刺激组成U-Net之间的协作学习，比单独训练相同架构的孤立U-网获得更好的性能(见IV-D节和V-C节)。
我们展示了U-Net++对多个主干编码器的可扩展性，并进一步将其适用于各种医学成像模式，包括CT、MRI和电子显微镜(见IV-A节和IV-B节)。

2、 PROPOSED NETWORK ARCHITECTURE: U-Net++

图1显示了U-Net++是如何从原始的U-Net演变而来的。在下面，我们首先跟踪这种演变，激发了对U-Net++的需求，然后解释其技术和实现细节。

2.1 Motivation behind the new architecture

我们已经做了一项全面的消融研究来研究不同深度的u-nets的性能(图1(ad))。为此，我们使用了三个相对较小的数据集，即Cell, EM, 和 Brain Tumor(详细信息见第III-A节)。表1 总结了这些结果。对于细胞和脑肿瘤的分割，一个较浅的网络(U-NetL3)的表现优于深度U-Net。另一方面，对于EM数据集，较深的U-Net网始终优于较浅，但性能增益只是很有限。我们的实验结果表明了两个关键的发现：1)更深的单元网并不一定总是更好的，2) 体系结构的最佳深度取决于手头数据集的难度和大小。虽然这些发现可能鼓励自动神经结构搜索，但这种方法受到了有限的计算资源[19]、[20]、[21]、[22]、[23]的阻碍。另外，我们提出了一个集成架构，它将不同深度的U-Net组合成一个统一的结构。我们将这种架构称为 $U-Net^e$ （图1(e)）。我们通过为集合中的每个U-Net定义一个单独的损失函数来训练 $U-Net^e$ ，即 $X^{0,j}，j∈\{ 1,2,3,4\}$ 。我们的深度监督方案不同于深度图像分类和图像分割网络中常用的深度监督；在[24]、[25]、[26]、[27]中，沿解码器网络添加到节点上，即 $X^{4−j,j}, j∈\{0、1、2、3、4\}$ ，而我们将其应用于 $X_{0,j}, j∈\{1、2、3、4\}$ 。在推理时，集合中每个U-Net的输出取平均值。
在这里插入图片描述

上面概述的集成体系结构( $U-Net^e$ )【 $U-Net^e$ 为每一个层级的feature map都设计了解码器，并实现了feature map与多个同级别解码器之间的长接接 】有利于知识共享，因为集成中的所有U-Nets都部分共享相同的编码器，即使它们有自己的解码器。然而，这种体系结构仍然有两个缺点。首先，解码器是断开的——较深的U-Net不向集成中较浅的U-Net的解码器提供监督信号。其次，在U-Nete中使用的跳跃连接的常见设计是不必要的约束，只要求网络将解码器的特征图与来自编码器的相同规模的特征图结合起来。虽然作为一种自然设计而引人注目，但并不能保证相同尺度的特征图是特征融合的最佳匹配。

为了克服上述限制，我们从 $U-Net^e$ 中删除了原始的跳跃连接，并连接了集成中的每两个相邻节点，从而产生了一个新的架构，我们称之为U-Net+(图1(f))【 $U-Net^e$ 为每一个层级的feature map都设计了解码器，并实现了多个同级别解码器之间的短连接 】。由于新的连接方案，U-Net+连接了不相交的解码器，使梯度反向传播从较深的解码器到较浅的对应解码器。U-Net+通过将解码器中的每个节点与在较浅的流中计算出的所有特征映射的聚合相结合，进一步放松了跳跃连接的不必要的限制性行为。虽然在解码器节点上使用聚合特征映射的限制远小于从编码器的相同规模的特征映射，但仍有改进的空间。我们进一步建议在U-Net+中使用密集的连接，从而产生了我们最终的架构建议，我们称之为U-Net++(图1(g))。

在密集连接的情况下，解码器中的每个节点不仅有最终的聚合特征图，还显示中间聚合特征图和编码器的原始同尺度特征图。因此，解码器节点中的聚合层可以学习只使用相同规模的编码器特征图或收集所输入的特征图。与 $U-Net^e$ 不同，U-Net+和U-Net++可以不进行深度监督，然而，正如我们将在后面描述的那样，深度监督能够使模型在推理期间进行模型修剪，显著加速，而性能仅略有下降。

2.2 Technical details

网络连通性：设 $x^{i,j}$ 表示网络节点(特定layer) $X^{i,j}$ 的输出，其中i表示沿编码器的下采样层，j表示沿跳跃连接的密集块的卷积层。由 $x^{i,j}$ 表示的特征映射堆栈计算为公式1所示

$$ x^{i,j}=
\begin{cases}
H(D(x^{i-1,j})) ,\quad j=0 \
H(\big[[x^{i,j}]_{k=0}{j-1}, U(x^{i+1,j-1})\big]), \quad j>0
\end{cases}

\tag{1}
$$

- 其中，函数H()是一个卷积运算+一个激活函数，D()和U()分别表示下采样层和上采样层，[]表示连接层。基本上，如图1(g)所示，j=0级的节点只接收编码器前一层的一个输入；j=1级的节点接收两个输入，都来自编码器子网络，但连续两个级；j>1级的节点接收j+1输入，其中j个输入是同一跳跳连接中前j个节点的输出，第j+1个输入是下跳连接的上采样输出。所有先前的特征映射累积并到达当前节点的原因是，我们在每个跳跃连接上使用了一个密集的卷积块。

深度监督：我们在U-Net++中引入了深度监督。为此，我们在节点 $X^{0,1}$ 、 $X^{0,2}$ 、 $X^{0,3}$ 和 $X^{0,4}$ 的输出中附加了一个1×1卷积，然后是一个sigmid激活函数，其中C是s数据集的类数。然后，我们定义了一个混合分割损失，包括像素级交叉熵损失和soft dice系数损失的每个语义尺度。混合损失可以利用两个损失函数所提供的：平滑梯度和处理类不平衡[28]，[29]。在数学上，混合损失被定义为：
$cross\ entropy \ loss()+dice\ loss()$
模型修剪：通过深度监督，可以实现模型修剪。由于深度监督，U-Net++可以部署在两种操作模式：1)集成模式：分割分割结果收集，然后平均；2)修剪模式：分割输出选择只有一个分割分支，选择决定了模型修剪和速度获得的程度。图2显示了不同复杂度的分支剪枝结构。具体来说，取 $X^{0,4}$ 的分割结果不会导致剪枝，而取 $X^{0,4}$ 的的分割结果会导致网络的最大剪枝。

3、EXPERIMENTS

3.1 Datasets

表2总结了本研究中使用的6个生物医学图像分割数据集，包括了最常用的医学成像方式的病变/器官，包括显微镜、计算机断层扫描(CT)和磁共振成像(MRI)。
在这里插入图片描述

1） Electron Microscopy(EM)：该数据集由EM分割挑战[30]提供，作为ISBI 2012的一部分。该数据集包括30张图像（512×512像素），来自果蝇初龄幼虫的连续切片透射镜(VNC)。参照图3中的例子，每张图像都带有相应的细胞（白色）和细胞膜（黑色）的地面真实分割图。被标记的图像被分为训练（24张图像）、验证（3张图像）和测试（3张图像）数据集。训练和推理都是基于96×96的patches完成的，这些patches通过滑动窗口选择重叠一半的patches大小。具体来说，在推理过程中，我们通过在重叠区域进行投票来聚合跨patches的预测。
在这里插入图片描述

2） Cell：该数据集是通过Cell-CT成像系统[31]获得的。两名训练有素的专家手动分割重叠的图像，因此数据集中的每幅图像都有两个二进制单元格掩码。在我们的实验中，我们选择了354张图像中的一个子集，它们在两个专家注释者之间具有最高水平的一致性。然后将选定的图像分为训练（212张图像）、验证（70张图像）和测试（72张图像）子集。

3）Nuclei：该数据集由2018年数据科学碗分割挑战提供，由670张来自不同模式（亮场和荧光）的分割nuclei图像组成。这是本工作中使用的唯一具有实例级注释的数据集，其中每个nuclei用不同的颜色标记。图像被随机分配到一个训练集（50%）、一个验证集（20%）和一个测试集（30%）中。然后，我们使用滑动窗口机制从图像中提取96×96的patch，32像素的步幅用于训练和验证模型，1像素的步幅用于测试。

4） Brain Tumor：该数据集由BraTS2013[32,34].提供。为了便于与其他方法进行比较，模型使用20个高级别(HG)和10个低级别(LG)进行训练，对所有患者的Mr图像进行Flair、T1、T1c和T2扫描，共得到66,348个切片。我们通过将切片重新缩放到256×256来进一步对数据集进行预处理。最后，数据集中可用的30名患者被随机分为5倍，每个5倍都有来自6名患者的图像。然后，我们将这五个折叠文件随机分配到一个训练集（3倍）、一个验证集（1倍）和一个测试集（1倍）中。数据有四种不同的标签：坏死、水肿、非增强肿瘤和增强肿瘤。在BraTS2013之后，“完整”评估是通过将所有四个标签视为正类，将其他标签视为负类。

5）Liver：该数据集由MICCAI 2017LiTS挑战提供，包括331次CT扫描，我们将其分为训练（100名患者）、验证（15例患者）和测试（15例患者）子集。地面真实分割提供了两种不同的标签：肝脏和病变。在我们的实验中，我们只认为肝脏是阳性类，而其他的则是阴性类。

6）Lung Nodule：该数据集由肺图像数据库联盟图像收集中心（锂离子体）[33]提供，由7家学术中心和8家医疗成像公司收集的1018例病例组成。6个带有地面真相问题的案件被确认并删除。其余的病例被分为训练（510）、验证（100）和测试（408）集。每个病例都是三维CT扫描，结节被标记为3维二进制掩模。我们将体积重新采样到1-1-1间距，然后在每个根瘤周围提取64×64×64的crop。这些三维crop被用于模型训练和评价。

3.2 Baselines and implementation

为了进行比较，我们使用原始的U-Net[35]和定制的wide U-Net架构用于2D分割任务，使用V-Net[28]和定制的wide V-Net架构用于3D分割任务。我们选择U-Net(或V-Net用于3D)，因为它是图像分割的常见性能基线。我们还设计了一个wide U-Net(或三维wide V-Net)，其参数数量与我们建议的架构相似。这是为了确保我们的体系结构所产生的性能增益并不仅仅是由于参数数量的增加。表3详细说明了U-Net和wide U-Net体系结构。我们进一步比较了U-Net++与U-Net+的性能，这是我们的中间架构建议。中间节点中的核数见表3。
在这里插入图片描述

我们的实验是在Keras中实现的（backend为tensorflow）。我们在验证集上使用early-stop机制，以避免过拟合，并使用Dice和IoU对结果进行评估。其他测量指标，如像素级敏感度、特异性、F1和F2分数，以及统计分析可以在附录a部分中找到。Adam作为优化器，学习率为3e-4。U-Net+和U-Net++都是由原始的U-Net架构构建的。所有实验都使用三个NVIDIA titanX(Pascal)gpu，每个有12GB内存。
在这里插入图片描述

4、RESULTS

4.1 Semantic segmentation results

表4比较了U-Net、wide U-Net、U-Net+和U-Net++的数量参数和分割结果。如前所见，wide U-Net的表现始终优于U-Net。这种改进归因于wide U-Net中更多的参数。在 neuronal structure（↑0.62±0.10，↑0.55±0.01），cell（↑2.30±0.30，↑2.12±0.09），nuclei（↑2.00±0.87，↑1.86±0.81），liver（↑2.62±0.09，↑2.26±0.02），和lung nodule（↑5.06±1.42，↑3.12±0.88）分割的所有6项任务中，没有深度监督的单位++在U-Net和宽U-Net上都获得了显著的IoU增益。使用深度监督和平均投票进一步提高了U-Net++，使IoU提高了高达0.8个百分点。具体来说，neuronal structure和lung nodule分割从深度监督中获益最大，因为它们在EM和CT切片中以不同的尺度出现。然而，深度监督最多只能对其他数据集略微有效。图3描述了U-Net、wide U-Net和U Net++的结果之间的定性比较。
在这里插入图片描述

我们进一步研究了U-Net++用于语义分割的可扩展性，通过将重新设计的跳跃连接应用于现代CNN架构：vgg-19[36]、resnet-152[8]和densenet-201[9]。具体来说，我们通过添加一个解码器子网络，将上述每个架构转换为U-Net模型，然后用重新设计的U-Net++连接替换了U-Net的纯跳跃连接。为了进行比较，我们还使用上述主干架构训练了U-Net和U-Net+。为了进行全面的比较，我们使用了EM、细胞、细胞核、脑瘤和肝脏分割数据集。如图4所示，U-Net++在所有正在研究的主干架构和应用程序上的性能始终优于U-Net和U-Net+。通过20次试验，我们进一步对U-Net、U-Net+和U-Net++的每对进行独立双样本t检验的统计分析。我们的研究结果表明，U-Net++是一种有效的，与主干无关的U-Net扩展。为了便于再现性和模型重用，我们发布了针对各种传统和现代主干架构的U-Net、U-Net+和U-Net++的实现1。
在这里插入图片描述

4.2 Instance segmentation results

实例分割包括对所有对象实例进行分割和区分；因此，比语义分割更具挑战性。我们使用Mask R-CNN[12]作为实例分割的基线模型。Mask R-CNN利用特征金字塔网络(FPN)为骨干，在多个尺度上生成目标proposal，然后通过专用的分割分支输出采集到的proposal输出分割掩码。我们修改了MaskR-CNN，用重新设计的U-Net++的普通跳跃连接。我们将这个模型称为Mask R-CNN++。我们在实验中使用resnet101作为Mask R-CNN的主干。

表5比较了Mask R-CNN与Mask R-CNN++用于细胞核的分割。我们选择核数据集是因为一个图像中可以出现多个核仁实例，在这种情况下，每个实例都用不同的颜色注释，因此标记为一个不同的对象。因此，该数据集既适用于将所有核实例视为前景类的语义分割，也适用于将每个核单独分割的实例分割。如表V所示，Mask RCNN++优于原来，IoU增加了1.82分（93.28%至95.10%），Dice增加了3.45分（87.91%至91.36%），排行榜得分增加了0.013分（0.401-0.414）。为了正确地理解这种性能，我们还训练了一个U-Net和U-Net++模型，以使用resnet101骨干进行语义分割。如表V所示，Mask R-CNN模型比语义分割模型具有更高的分割性能。此外，正如预期的那样，U-Net++在语义分割方面优于U-Net。
在这里插入图片描述

4.3 Model pruning

一旦U-Net++被训练，在推理时，深度d的解码器路径完全独立于深度d+1的解码器路径。因此，由于引入了深度监督，我们可以完全删除解码器，在深度d+1，在深度d获得训练的U-Net++的较浅版本。这种剪枝可以显著减少推理时间，但分割性能可能会降低。因此，剪枝的级别应该通过评估模型在验证集上的性能来确定。我们研究了图5中U-Net++的推理速度与Iou权衡。我们使用U-Net++ $L^d$ 表示深度d修剪的U-Net++（详见图2）。如图所示，U-Net++ $L^3$ 平均减少了32.2%的推理时间，减少了75.6%的内存占用，而IoU仅降低了0.6个点。更激进的修剪进一步减少了推断时间，但以显著退化为代价。更重要的是，由于现有的深度卷积神经网络模型的计算机成本高，因此对移动设备的计算机辅助诊断(CAD)具有重要影响。
在这里插入图片描述

4.3 Embedded vs. isolated training of pruned models

理论上，U-Net++ $L^d$ 可以训练两种方式：1)嵌入式训练完整的U-Net++模型训练，然后修剪深度d获得U-Net++ $L^d$ ，2)孤立训练U-Net++ $L^d$ 训练在孤立没有任何交互与更深的编码器和解码器节点。如图2所示，一个子网络的嵌入式训练包括通过深度监督训练所有的图节点（黄色和灰色成分），但在推理期间我们只使用黄色的子网络。相比之下，孤立的训练包括从图中去除灰色节点，仅基于黄色子网络进行训练和测试。

我们比较了图6中两个数据集上不同级别的U-Net++剪枝的隔离和嵌入式训练方案。我们发现，U-Net++ $L^d$ 的嵌入式训练比单独训练相同的架构能产生更高性能的模型。当完整的U-Net++被修剪到U-Net++ $L^1$ 时，在侵略性修剪下观察到的优势更加明显。特别是，用于肝脏分割的U-Net++ $L^1$ 的嵌入式训练比孤立的训练方案增加了5分。这一发现表明，来自深层下游的监督信号可以训练更高性能的更浅的模型。这一发现也与知识蒸馏有关，即由一个深度教师网络学习的知识是由一个较浅的学生网络学习而来。
在这里插入图片描述

5. DISCUSSIONS

5.1 Performance analysis on stratified lesion sizes

图7比较了U-Net和U-Net++对不同大小脑肿瘤的分割。为了避免图中的混乱，我们将肿瘤按大小分成7种。如上所示，U-Net++在所有桶中的性能始终优于U-Net。我们还基于20个不同的试验对每个桶采用t检验来衡量改善的显著性，得出7种比较中有5种具有统计学意义(p<0.05)。U-Net++对不同大小肿瘤的分割能力归因于其内置的u-nets集成，它支持多个网络的图像分割。
在这里插入图片描述

5.2 Feature maps visualization

在第二节II-A节中，我们解释了重新设计的跳跃连接使语义丰富的解码器特征图与来自体系结构中间层的不同语义尺度的特征图融合在一起。在本节中，我们将通过可视化中间特性映射来说明我们重新设计的跳跃连接的优越性。
在这里插入图片描述
图8显示了脑肿瘤图像沿最顶部跳跃连接(即 $X_{0,i}$ )的早期、中间和晚期层的代表性特征图。通过对一层的所有特征图进行平均，得到该层的代表性特征图。还需要注意的是，图8左侧的架构只使用附加到最深的解码器层( $X_{0,4})上的损失函数进行训练，而图8右侧的架构则是通过深度监督进行训练的。请注意，这些特性映射并不是最终的输出。我们在每个解码器分支的顶部附加了一个额外的1×1卷积层来形成最终的分割。我们观察到，U-Net的中间层的输出在语义上有所不同，而对于U-Net+和U-Net++的输出是逐渐形成的。U-Net中节点$ X_{0,0}的输出经历了轻微的转换（只有很少的卷积操作），而 $X_{1,3}的输出，即$ X_{0,4}的输入，几乎都经过了网络学习到的每一个转换（4个下采样和3个上采样阶段）。因此， $X_{0,0}和$ X_{1,3}的表示能力之间存在很大的差距。所以，简单地连接 $X_{0,4}和$ X_{1,3}的输出并不是一个最优的解决方案。相比之下，在U-Net+和U-Net++中重新设计的跳跃连接有助于逐步细化分割结果。我们在附录B节中进一步展示了所有六种医疗应用的学习曲线，表明在U-Net++中添加密集连接可以促进更好的优化，并达到更低的验证损失。

5.3 Collaborative learning in U-Net++

协同学习是指在同一训练数据上同时训练同一网络的多个分类器头。研究发现，它可以提高深度神经网络[37]的泛化能力。U-Net++通过聚合多深度网络和监督来自每个组成网络的分割头，自然地体现了协作学习。此外，分割头，例如图2中的$X_{0,2}，从强（label 损失）和软（从相邻较深节点传播的损失）监督中接收梯度。因此，较浅的网络改进了它们的分割（图6），并为更深的对应网络提供了更多的信息表示。基本上，在U-Net++中，更深和更浅的网络通过协作学习相互规范。一起训练多深度嵌入式网络比单独训练为孤立网络更有利于分割，这在第IV-D节中很明显。U-Net++的嵌入式设计使其易于进行辅助训练、多任务学习和知识蒸馏、[17]、[38]、[37]

6. RELATED WORKS

下面，我们将回顾与重新设计的跳跃连接、特性聚合和深度监督相关的工作，这些都是我们新体系结构的主要组件。

6.1 Skip connections

Skip连接首先在Long等人[39]的开创性工作中被引入，他们提出了一种用于语义分割的全卷积网络(FCN)。不久之后，在跳跃连接的基础上，罗内伯格等人[35]提出了用于医学图像语义分割的U-Net架构。然而，FCN和U-Net的架构不同于上采样的解码器特征图如何与来自编码器网络的相同尺度的特征图融合。FCN[39]使用求和操作进行特征融合，而U-Net[35]连接这些特征，然后应用卷积和非线性。跳跃连接有助于恢复完整的空间分辨率，使完全卷积的方法适用于语义分割的[40]，[41]，[42]，[43]。跳跃连接进一步应用于现代神经结构中，如残差网络[8]、[44]和密集网络[9]，促进了梯度流，提高了分类网络的整体性能。

6.2 Feature aggregation

对聚合层次特征的探索是近年来的研究课题。Fourure等人。[45]提出了GridNet，这是一种编解码器架构，其中特征映射以网格方式连接，推广了几个经典的分割架构。尽管GridNet包含多个具有不同分辨率的输入，它在跳过连接之间缺乏上采样层；因此，它不代表U-Net++。Full-resolution residual networks (FRRN)[46]采用了一个two-stream系统，其中全分辨率信息在一个流中携带，上下文信息在另一个池化流中携带。在[47]中，提出了两种改进的FRRN版本，即28.6M参数的增量MRRN和25.5M参数的密集MRRN。然而，这些2D架构的参数数量与我们的3D VNet++相似，参数是2D U-Net++的三倍；因此，简单地将这些架构升级到3D方式可能不适用于通用的3D体积医学成像应用。我们想注意的是，我们重新设计的密集跳过连接与MRRN中使用的完全不同，MRRN由一个共同的剩余流组成。此外，将MRRN的设计应用于其他主干编码器和元框架，如Mask R-CNN[12]，也是不灵活的。DLA2[48]在拓扑结构上相当于我们的中间架构U-Net+(图1(f))，顺序连接相同分辨率的特征图，不像U-Net中使用的长跳连接。我们的实验结果表明，通过密集连接各层，U-Net++比U-Net+/DLA具有更高的分割性能（见表4）。
在这里插入图片描述

6.3 Deep supervision

He[8]等人认为，网络的深度d可以作为一个正则化器。Lee等人[27]证明，深度监督层可以提高隐藏层的学习能力，强制中间层学习鉴别特征，使网络[26]能够快速收敛和正则化。DenseNet[9]以一种隐含的方式执行类似的深度监督。深度监督也可以在类似于U-Net的架构中使用。 Dou[49]等人通过结合来自不同分辨率的特征图的预测，引入了一种深度监督，这表明它可以对抗潜在的优化困难，从而达到更快的收敛速度和更强大的识别能力。Zhu等人[50]在他们提出的体系结构中使用了8个额外的深度监督层。然而，我们的嵌套网络更易于在深度监督下进行训练：1)多个解码器自动生成全分辨率分割图；2)网络嵌入不同深度的U-Net，从而掌握多分辨率特征；3)紧密连接的特征图有助于平滑梯度流，并给出相对一致的预测掩模；4)高维特征通过反向传播对每个输出都有影响，允许我们在推理阶段对网络进行修剪。

6.4 Our previous work

我们首先在DLMIA 2018年的论文[51]中介绍了U-Net++。U-Net++很快被研究社区采用，作为一个强大的基线比较[52]，[53]，[54]，[55]，或作为灵感的来源开发新的语义分割架构[56]，[57]，[58]，[59]，[60]，[61]；也被用于多个应用程序，如分割对象在生物医学图像[62]，[63]，自然图像[64]，和卫星图像[65]，[66].最近，Shenoy[67]独立系统地进行了“contact prediction model PconsC4”任务的研究，比广泛使用的U-Net有显著的改进。

然而，为了进一步加强U-Net++，目前的工作对我们之前的工作进行了几个扩展：（1）我们提出了对网络深度的全面研究，激发了对拟议架构的需求(第II-A节)；（2）我们将嵌入式训练方案与不同层次的U-Net++的孤立方案进行比较，发现多深度的嵌入式U-Net网训练比单独训练能提高性能(第IV-D节)；（3）我们通过加入一个新的脑肿瘤分割的磁共振成像(MRI)数据集（第四节）来加强我们的实验；（4）我们证明了U-Net++在Mask R-CNN中的有效性，得到了一个更强大的模型，即Mask RCNN++(第四-B节)；（5）我们研究了U-Net++对多个高级编码器骨干的可扩展性（第IV-A节））；（6）研究了U-Net++在分割不同大小病变方面的有效性(V-A节)；（7）我们可视化了沿着退化后的跳跃连接的特征传播来解释性能(V-B节)。

7、CONCLUSION

我们提出了一种新的架构，名为U-Net++，以实现更精确的图像分割。我们的U-Net++改进的性能归因于它的嵌套结构和重新设计的跳跃连接，旨在解决U-Net的两个关键挑战：1)最优架构的未知深度；2)跳跃连接的不必要约束性设计。我们使用六种不同的生物医学成像应用程序评估了U-Net++，并展示了对语义分割的各种最先进的骨干和实例分割的元框架的一致性能改进。