论文阅读:UNET 3+: A FULL-SCALE CONNECTED UNET FOR MEDICAL IMAGE SEGMENTATION

在这里插入图片描述
论文地址:https://arxiv.org/ftp/arxiv/papers/2004/2004.08790.pdf
发表年份:2020年

最近,人们对基于深度学习的语义分割越来越感兴趣。 UNet 是一种具有编码器-解码器架构的深度学习网络,广泛用于医学图像分割。结合多尺度特征是准确分割的重要因素之一。 UNet++ 是通过设计具有嵌套和密集跳过连接的架构而开发为修改后的 Unet。但是,它没有从全尺度探索足够的信息,还有很大的改进空间。在本文中,我们提出了一种新颖的 UNet 3+,它利用了全面的跳过连接和深度监督。全尺寸跳跃连接将低级细节与来自不同尺度特征图的高级语义结合起来;而深度监督则从全尺寸聚合特征图中学习层次表示。所提出的方法特别有利于以不同尺度出现的器官。除了提高精度外,所提出的 UNet 3+ 还可以减少网络参数以提高计算效率。我们进一步提出了一种混合损失函数并设计了一个分类引导模块来增强器官边界并减少非器官图像中的过度分割,从而产生更准确的分割结果。在两个数据集上证明了所提出方法的有效性。代码位于:github.com/ZJUGiveLab/UNet-Version

1. INTRODUCTION

医学图像中的自动器官分割是许多临床应用中的关键步骤。最近,卷积神经网络 (CNN) 大大促进了开发各种分割模型,例如全卷积神经网络 (FCN) [1]、UNet [2]、PSPNet [3] 和一系列 DeepLab 版本 [4-6]。特别是基于编码器-解码器架构的 UNet 被广泛用于医学图像分割。它使用跳跃连​​接来组合来自解码器的高级语义特征图和来自编码器的相应低级详细特征图。为了从 UNet 中的普通跳过连接中消除语义不同特征的融合,UNet++ [7] 通过引入嵌套和dense net结构进一步加强了这些连接,旨在减少编码器和解码器之间的语义差距。尽管取得了良好的性能,但这种方法仍然无法从全尺度探索足够的信息。

正如许多分割研究 [1-7] 所见证的,不同尺度的特征图探索独特的信息。低级详细特征图捕获丰富的空间信息,突出器官的边界;而高级语义特征图则包含位置信息,用于定位器官所在的位置。然而,当逐步向下和向上采样时,这些精细的信号可能会逐渐被稀释。为了充分利用多尺度特征,我们提出了一种新的基于 U 形的架构,命名为 UNet 3+,其中我们重新设计了编码器和解码器之间的互连以及内部连接在解码器之间捕获全尺度的细粒度细节和粗粒度语义。为了进一步从全尺寸聚合特征图中学习层次表示,每侧输出都与一个混合损失函数相连,这有助于准确分割,特别是对于在医学图像体积中以不同比例出现的器官。除了提高准确性外,我们还表明,所提出的 UNet 3+ 可以减少网络参数以提高计算效率。

为了解决医学图像中对更准确分割的需求,我们进一步研究了如何有效减少非器官图像中的误报。现有方法通过引入注意机制 [8] 或在推理时执行预定义的细化方法(例如 CRF [4])来解决该问题。与这些方法不同,我们扩展了一个分类任务来预测输入图像是否有器官,为分割任务提供指导。

设计一种新颖的 UNet 3+,通过引入全尺度跳跃连接来充分利用多尺度特征,该连接将低层次细节与全尺度特征图中的高层次语义相结合,但参数较少; (ii) 开发深度监督以从全尺寸聚合特征图中学习层次表示,从而优化混合损失函数以增强器官边界; (iii) 提出一个分类引导模块,通过与图像级分类联合训练来减少非器官图像的过度分割;(iv) 对肝脏和脾脏数据集进行广泛的实验,其中 UNet 3+ 在许多基线上产生了一致的改进。

2. METHODS

图 1 给出了 UNet、UNet++ 和新提出 UNet 3+ 的简化概述。与 UNet 和 UNet++ 相比,UNet 3+ 通过重新设计跳跃连接以及利用全尺度深度监督结合了多尺度特征,提供更少的参数但产生更准确的位置感知和边界增强分割图。
在这里插入图片描述

2.1. Full-scale Skip Connections

所提出的全尺寸跳跃连接转换了编码器和解码器之间的互连,以及解码器子网络之间的内部连接。具有普通连接的 UNet 和具有嵌套密集连接的 UNet++ 都缺乏从全尺度探索足够的信息,未能明确地学习器官的位置和边界。为了弥补 UNet 和 UNet++ 中的缺陷,UNet 3+ 中的每个解码器层都包含来自编码器的较小和相同尺度的特征图以及来自解码器的较大尺度的特征图,从而完整地捕获细粒度细节和粗粒度语义信息。

例如,图 2 说明了如何构建 X d e 3 X_{de}^3 Xde3的特征图。与 UNet 类似,解码器直接接收来自相同尺度编码器层的特征图 X e n 3 X_{en}^3 Xen3。与 UNet 相比,通过使用不重叠的池化操作,一组编码器-解码内置的跳跃连接提供来自较小规模编码器层 X e n 1 X_{en}^1 Xen1 X e n 2 X_{en}^2 Xen2的低级详细信息。而,一个内部的链式跳跃解码器接通过利用双线性插值从更大规模的解码器层 X d e 4 X_{de}^4 Xde4 X d e 5 X_{de}^5 Xde5传输高级语义信息。有了五个相同分辨率的特征图,我们需要进一步统一通道数,同时减少多余信息。我们突然想到,使用 64 个大小为 3 × 3 的过滤器的卷积可能是一个令人满意的选择,将浅层精致信息与深层语义信息无缝融合。我们进一步对来自五个尺度的级联特征图执行特征聚合机制,其中包括 320 个大小为 3 × 3 的过滤器、一个批量归一化和一个 ReLU 激活函数。形式上,我们将跳跃连接制定如下:让 i i i 沿着编码器索引下采样层, N N N指编码器的总数。由 X d e i X_{de}^i Xdei表示的特征图堆栈,计算方式为:
在这里插入图片描述
其中函数∁(∙)表示卷积操作,ℋ(∙)通过卷积实现特征聚合机制,然后是批量归一化和ReLU激活函数。 D(∙) 和 U(∙) 分别表示上采样和下采样操作,[∙] 表示concat操作。

值得一提的是,我们提出的 UNet 3+ 参数更少,效率更高。在编码器子网络中,UNet、UNet++ 和 UNet 3+ 共享相同的结构,其中 X e n i X_{en}^i Xeni具有 32 × 2 i 32×2^i 32×2i个通道。至于解码器,UNet中特征图的深度与编码器是对称的,因此 X d e i X_{de}^i Xdei,也有 32 × 2 i 32×2^i 32×2i个通道。 U N e t ( P u − d e i ) UNet(P_{u-de}^i) UNet(Pudei)第i个stage解码器阶段的参数个数可以计算为:
在这里插入图片描述
其中 D F D_F DF是卷积核的size,d(·)代表节点的深度,对于 UNet++,它沿每个跳过路径使用密集卷积块,其中 P u + + − d e i ) P_{u^{++}-de}^i) Pu++dei)可以计算为:
在这里插入图片描述
可以看, P u + + − d e i ) P_{u^{++}-de}^i) Pu++dei) P u − d e i ) P_{u-de}^i) Pudei)大。在 UNet3+,每一个解码特征图都衍生自N个尺度,产生 64 × N个通道。 P u − d e i ) P_{u-de}^i) Pudei)可以被计算为:
在这里插入图片描述

2.2. Full-scale Deep Supervision

为了从全尺度聚合特征图中学习层次表示,在 UNet 3+ 中进一步采用了全尺度深度监督。与在 UNet++ 中对生成的全分辨率特征图执行深度监督相比,所提出的 UNet 3+ 从每个解码器阶段产生一个侧输出,由label进行监督。为了实现深度监督,每个解码器阶段的最后一层被送入一个普通的 3 × 3 卷积层,然后是一个双线性上采样和一个 sigmoid 函数。

扫描二维码关注公众号,回复: 14394756 查看本文章

为了进一步增强器官的边界,我们提出了一种多尺度结构相似性指数(MS-SSIM)[9]损失函数来为模糊边界分配更高的权重。受益于此,UNet 3+ 将关注模糊边界,因为区域分布差异越大,MS-SSIM 值越高。从分割结果 P 和真实标注 G 中裁剪出两个相应的 N×N 大小的块,可以表示为 p = { p j : j = 1... , N 2 } p= \{ p_j :j=1...,N^2\} p={ pj:j=1...,N2} g = { g j : j = 1... , N 2 } g= \{ g_j :j=1...,N^2\} g={ gj:j=1...,N2}。 p 和 g 的 MSSSIM 损失函数定义为:
在这里插入图片描述
M是所有的尺度, u p , g p , σ p , σ g u_p,g_p, σ_p,σ_g up,gp,σp,σg分别表示为p和g的均值和方差, σ p g σ_{pg} σpg表示p和g的协方差。 β m , λ m \beta_m, \lambda_m βm,λm定义了每个scale中两个分量的相对重要性。两个常数 C 1 = 0.0 1 2 , C 2 = 0.0 3 3 C_1=0.01^2, C_2=0.03^3 C1=0.012,C2=0.033用于避免除数为0。在这个实验中,遵守论文[9],scale设为5。

通过组合focal loss,MS-SSIM loss,IoU loss,我们开发了一种混合损失,用于三级层次的分割——像素级、补丁级和地图级,它能够捕获具有清晰边界的大规模和精细结构。最终的混合loss被定义为
l s e g = l f l + l m s − s s i m + l i o u (6) l_{seg}=l_{fl}+l_{ms-ssim}+l_{iou} \tag{6} lseg=lfl+lmsssim+liou(6)

2.3. Classification-guided Module (CGM)

在大多数医学图像分割中,非器官图像中出现假阳性是不可避免的情况。这很可能是由于背景中的噪声信息保留在较浅层中,导致过度分割现象。为了实现更准确的分割,我们尝试通过添加一个额外的分类任务来解决这个问题,该任务旨在预测输入图像是否有器官。

如图 3 所示,经过 dropout、conv、maxpooling 和 sigmoid 等一系列操作后,从最深层产生一个二维张量 X e n 5 X_{en}^5 Xen5,每个张量代表 有/没有 器官的概率。受益于最丰富的语义信息,分类结果可以进一步指导每个分割侧输出分两步。首先,在 argmax 函数的帮助下,二维张量被转换为 {0,1} 的单个输出,表示 有/没有 器官。随后,我们将单个分类输出与侧分割输出相乘。由于二元分类任务的简单性,该模块在二元交叉熵损失函数[12]的优化下毫不费力地达到了准确的分类结果,实现了对弥补无器官图像过分割缺陷的指导。
在这里插入图片描述

3. EXPERIMENTS AND RESULTS

3.1. Datasets and Implementation

该方法在两个器官上得到验证:肝脏和脾脏。肝脏分割的数据集来自 ISBI LiTS 2017 Challenge。它包含 131 幅对比增强 3D 腹部 CT 扫描,其中 103 卷和 28 卷分别用于训练和测试。来自医院的脾脏数据集通过了伦理批准,包含 40 和 9 个 CT 卷用于训练和测试。为了加快训练速度,输入图像有三个通道,包括要分割的切片和上下切片,裁剪为320×320。我们利用随机梯度下降来优化我们的网络,并将其超参数设置为默认值。Dice系数被用作每个案例的评估指标。

3.2. Comparison with UNet and UNet++

在本节中,我们首先将提议的 UNet 3+ 与 UNet 和 UNet++ 进行比较。每种方法中都使用了的损失函数是focal loss。

(i) Quantitative comparison: 基于 Vgg-16 和 ResNet-101 的主干,表 1 比较了 UNet、UNet++ 和提出的 UNet 3+ 架构在肝脾数据集上的参数数量和分割精度。正如所见,没有深度监督的 UNet 3+ 在 UNet 和 UNet++ 上取得了超越的性能,在两个数据集上执行的两个主干之间平均提高了 2.7 和 1.6 个点。考虑到肝脏和脾脏在 CT 切片中出现的不同尺度,UNet 3+ 结合全尺度深度监督进一步提高了 0.4 个百分点。
在这里插入图片描述
(ii) Qualitative comparison: 图 2 展示了基于 ResNet-101 的 UNet、UNet++ 和 UNet 3+ 对肝脏数据集进行全面深度监督的分割结果。可以观察到,我们提出的方法不仅可以准确定位器官,而且可以产生连贯的边界,即使在小物体情况下也是如此。

3.3. Comparison with the State of the Art

我们将基于 ResNet-101 的 UNet 3+ 与几种最近的最先进方法进行了定量比较:PSPNet [3]、DeepLabV2 [4]、DeepLabV3 [5]、DeepLabV3+ [6] 和 Attention UNet [8]。值得一提的是,所有结果均直接来自单模型测试,不依赖任何后处理工具。此外,所有网络都通过他们自己论文中提出的损失函数进行了优化。

表2总结了定量比较结果。可以看出,所提出的混合损失函数通过考虑 pixel-leve , patch-leve , map-leve 优化,极大地提高了性能。特别是,patch-leve的 MSSSIM 损失函数有助于为模糊边界分配更高的权重,从而产生更多增强的边界感知分割图。此外,利用分类指导模块,UNet 3+ 巧妙地避免了复杂背景下的过度分割。可以看出,与所有其他以前的方法相比,这种方法非常出色。还值得注意的是,所提出的方法优于肝脏(0.9675 对 0.9341)和脾脏(0.9620 对 0.9324)的第二好的结果。
在这里插入图片描述

4. CONCLUSIONS

在本文中,我们提出了一个全尺寸连接的 UNet,命名为 UNet 3+,具有深度监督,以最大限度地利用全尺寸特征图进行准确分割和高效的网络架构,参数更少。进一步引入了分类引导模块和混合损失函数,以产生更准确的位置感知和边界感知分割图。肝脏和脾脏数据集的实验结果表明,UNet 3+ 超越了以前所有最先进的方法,突出了器官并产生了连贯的边界。

猜你喜欢

转载自blog.csdn.net/a486259/article/details/125950195