NAS-Unet:医学图像分割的神经架构搜索

在这里插入图片描述

论文地址：https://doi.org/10.1109/ACCESS.2019.2908991

项目地址：https://github.com/tianbaochou/NasUnet

IEEE Access 2019

ABSTRACT

神经架构搜索(NAS)在提高图像分类精度方面取得了重大进展。近年来，一些研究尝试将NAS扩展到图像分割中，显示出初步的可行性。然而，它们都集中在自然场景中搜索语义分割的体系结构。本文在搜索空间上设计了三种类型的原语操作集，用于语义图像分割，特别是医学图像分割中自动找到DownSC和UpSC两种cell结构。受U-net架构及其变体成功应用于各种医学图像分割的启发，我们提出了在类似u的骨干网上由相同数量的DownSC和UpSC堆叠的NAS-Unet。在搜索阶段，DownSC和UpSC的架构通过差分架构策略同步更新。我们在分别由磁共振成像、计算机断层扫描和超声采集的Promise12、Chaos和超声神经数据集上证明了该方法的良好分割效果。在没有任何预训练的情况下，我们的架构在PASCAL VOC2012上搜索，在上述三种类型的医学图像数据集上进行评估时，获得了比U-net及其变体更好的性能和更少的参数(约0.8M)。

I. INTRODUCTION

随着医学影像分析设备的发展和普及，磁共振成像(MRI)、计算机断层扫描(CT)、超声等已成为医疗机构进行疾病诊断、手术计划和预后评估不可缺少的设备。核磁共振成像是无线电成像领域中应用最广泛的技术。MRI成像的突出特点之一是成像序列的多样性。在MRI中，图像的对比度取决于相衬脉冲序列。最常见的脉冲序列是T1(自旋晶格;即磁化强度与静磁场方向相同)加权和T2加权自旋(自旋素;横向于静磁场)。与CT相比，MRI可以提供不同的信息。MRI扫描可能存在风险和不适。与 CT 扫描相比，MRI 扫描通常需要更长的时间和更大的声音，而且它们通常需要受试者进入狭窄的封闭管。超声成像(超声波成像)利用高频声波来观察人体内部。与CT和MRI不同，超声图像的分辨率相对较低。

医学图像分析是医学图像分析的第一步，它有助于使图像更加直观，提高诊断效率。医学图像分割是医学图像分析领域的关键步骤。为了给临床诊断和病理研究提供可靠的依据，帮助医生做出更准确的诊断，需要对我们关注的医学图像部分进行分割，提取相关特征。最初，医学图像分析是通过顺序应用低级像素处理(例如基于区域的方法[1]或基于阈值的方法[2])和数学建模来构建基于复合规则的系统来解决特定任务[3]。这一时期的分割结果一般没有语义标记。在深度学习时代，图像分割一般指语义分割，即在像素级对图像进行识别（标记图像中每个像素所属的对象类别）[4]、[5]。例如，在图1中，左侧图像中的医学图像由膀胱壁和其他组织组成，右侧图像是其语义分割的结果，分割出像素语义对象，即标记为黄色的膀胱壁，同样，将其他组织视为背景并标记为紫色。迄今为止，用于图像分析的最成功的深度学习模型是卷积神经网络(CNN)。

在这里插入图片描述

深度学习与大数据、云计算的相互促进，给计算机视觉带来了很大的发展[6]。CNN是计算机视觉领域最常用的神经网络，是为了解决图像分类问题而提出的。图像分割是自然图像和医学图像分析中的一项常见任务。为了解决这个问题，CNN可以简单地对图像中的每个像素单独进行分类，通过在特定像素周围提取补丁来呈现它，并产生与输入图像相同大小的多通道似然图。然而，在始终保持特征映射的维度时，会消耗大量的内存。更常见的是，在几个卷积层之后增加一个下采样层(如最大池化和平均池化)，以降低特征映射的维度并细化高级上下文。不幸的是，这可能导致输出分辨率远低于输入分辨率。fns (Fully Convolutional Networks，全卷积网络)[7]是防止分辨率下降的几种方法之一。这是第一个通过将完全连接的层替换为卷积层之后的一系列上采样层来训练端到端逐像素预测的工作。经典cnn一般在最后一层卷积后使用全连接层获得定长特征向量，并将其放入分类器中(如softmax层)。相比之下，fcn可以接受任何大小的输入图像，最后一层卷积后的上采样层可以将其输入的维数恢复到与输入图像相同，从而在保留原始输入图像空间信息的同时，对每个像素进行预测，最后对上采样特征进行逐像素分类，映射到期望的图像分割。与 FCN 类似，U-net [8] 由卷积层、下采样层和上采样层组成。与FCN不同的是，U-net的下采样层数和上采样层数以及它们之间的卷积层数是相同的。另外，U-net采用跳接操作将每对下采样层和上采样层连接起来，使得空间信息直接应用到更深的层，分割结果更加准确。

从最早的LeNet[9]到AlexNet[10]、VggNet[11]、GoogleNet[12]、ResNet[13]以及最近的DenseNet [14]， CNN模型的性能越来越强，越来越成熟。许多作品针对特定任务设计了网络结构[15]，[16]。目前，这些流行的网络架构是由行业专家和学者花费数月甚至数年时间设计出来的。这是因为设计一个性能优异的网络架构往往需要大量的领域知识。一般的研究人员不具备这种能力，而且设计过程既耗时又费力。基于此，当前卷积神经网络的研究重点转向了神经架构搜索(neural architecture search, NAS)[17]。NAS可以看作是AutoML(自动机器学习)的子领域，与超参数优化和元学习有很大的重叠。目前对NAS的研究主要集中在三个方面:搜索空间、搜索策略和性能评估策略。搜索空间定义了原则上可以表示哪些体系结构。结合适合任务属性的先验知识，可以减小搜索空间的大小，简化搜索任务。例如，在图像分类中，搜索空间包括每个搜索步骤中原语操作的选择和用于定义外部网络的先验骨干体系结构。搜索策略详细说明了如何探索搜索空间。NAS的目标通常是寻找在看不见的数据上具有高评价性能的架构(例如，将训练数据集分为训练和验证，并在训练上搜索架构，但通过验证进行评估)[17]。关于NAS已经做了很多工作，其中大部分集中在图像分类任务上[18]-[23]。

尽管NAS在计算机视觉领域具有巨大的潜力，但真正的前景取决于它是否可以扩展到处理图像分类以外的视觉任务，特别是依赖于高分辨率图像输入和多尺度图像表示的图像语义分割、实例分割和目标检测等计算机视觉核心问题。将NAS直接从图像分类引入到图像语义分割中是不可行的：首先，分类任务的搜索空间与图像语义分割存在明显差异；其次，从低到高图像分辨率的迁移学习的想法是出乎意料的[24]。解决上述两个问题的逻辑思路是建立特定的图像分割搜索空间，并用高分辨率图像搜索架构。一些工作一直在尝试解决上述两个问题，并取得了一定的成功——这正是近期工作所遵循的思路[24]，[25]。

本文提出了一种新的医学图像分割原语操作集。受U-net及其变体在医学图像分割方面的成功启发，我们使用一个类似u的架构作为我们的主干网络(即离群网络)，并在PASCAL VOC 2012[26]上并行搜索两个基于cell的架构(下采样cell和上采样cell)，分别表示为DownSC和UpSC。最后，我们得到我们的体系结构表示为NAS-Unet，它由相同数量的DownSC和UpSC堆叠。我们的工作表明，在我们之前提到的所有类型的医学图像数据集中，NasUnets在参数使用方面更有效，并且比U-Net和FC-DenseNet [27] (U-Net的变体)获得了更好的性能。综上所述，我们的贡献如下：

本文首次尝试将NAS应用于医学图像分割。
在u型骨干网上，我们分别对DownSC和UpSC提出了不同的原语操作集进行搜索。当完成搜索时，我们经验地发现，在我们的UpSC架构中，标准的跳过连接被权重操作(参见V -A)所取代。
我们表明，在我们评估的所有类型的医学图像分割数据集中，NAS-Unet的性能优于U-Net及其变体(FC-Densenet)，而无需使用任何预训练的主干。NAS-Unet的训练时间接近U-Net，但参数量仅为6%。FC-Densenet的内存成本是我们的两倍。

II. RELATED WORK

A. 基于现代CNN的医学图像分割

据我们所知，Ciresan等[28]。首次将深度神经网络应用于医学图像分割。电子显微镜图像的分割堆栈是使用卷积神经网络的标志。“patch”是完成分割的关键思想——为了分割整个堆栈，分类器通过提取像素周围的patch应用于滑动窗口中每个切片的每个像素。这种朴素的滑动窗口方法的一个缺点是，来自相邻像素的输入补丁有大量的重叠和冗余计算。在[28]中还指出，用这种方法分割整个堆栈是时间效率低下的，在四个GPU上的堆栈至少需要10分钟。Ronneberger等人[8]将全连接层重写为卷积，并尝试同样的任务，结果更好。如图2 (a)所示，作者进一步借鉴了FCN[7]的思想，提出了U-Net架构，其设计基于编码器-解码器网络框架:将输入图像放入编码器架构中提取高级上下文，然后将上下文流到解码器架构中还原空间信息和像素分类结果。虽然这不是第一次在卷积神经网络中使用编码器-解码器(例如Shelhamer等人[7]使用预训练的现代CNN网络作为编码器，使用“up”卷积层作为解码器(FCN-32))，但作者将其与水平跳过连接结合起来，直接连接相反的收缩和扩展卷积层。

U-Net网络提出后，在医学图像分割领域表现良好。许多研究人员已经在这方面做了各种改进。Çiçek等人[29]首先提出了一种三维U-Net网络架构，通过输入三维图像的连续二维切片序列来实现三维图像分割。Milletari等[30]提出了一种基于U-Net的三维变形架构V -net。V-Net架构使用Dice系数损失函数代替交叉熵损失函数，直接最小化了这种常用的分割误差度量。作者在原有的u型设计基础上进一步引入了残块。这两种方法都是用三维卷积核扩展u型结构。

Drozdzal等人[31]区分了长跳过连接(即两个相距较远的特征图之间的跳过连接)和短跳过连接(通常称为单个残差块)，发现两者都有利于创建用于医学图像分割的深度架构。Simon等[27]将密集连接卷积网络(Dense - Connected Convolutional Networks, DenseNets)与u型架构相结合，将主干中的卷积层替换为Dense Block，扩展到自然图像分割中，取得了良好的性能。

B. 神经架构搜索

设计一个好的神经网络架构是费时费力的，为了减少人工设计网络架构的工作量和资源成本，一些学者把注意力放在了神经架构搜索(NAS)上。目前，关于图像分类的研究大多集中在搜索CNN架构上，而关于RNN用于语言任务的研究较少。正如我们前面提到的，NAS包括三个组件:搜索空间、搜索策略和性能估计。搜索算法主要有启发式算法[19]、[21]、[32]-[34]、强化学习[35]-[38]、[38]、[39]、贝叶斯优化方法[40]、[41]和基于梯度的方法[20]、[42]、[43]。性能评估可以从两个方面来理解。首先，评估候选体系结构的性能，以确定是否为下一次更新保留(或扩展)。其次，我们需要一个由cell(当使用基于cell的搜索空间时)或当前候选架构堆叠的更深层次的网络，并将训练数据集放入其中进行训练并评估最终性能。

网络搜索空间包括节点的拓扑结构和每个连接节点之间的操作。前者试图直接构建整个网络架构[36]，[44]。然而，由于NASNet[37]成功地将cell堆叠在ImageNet上，最近的作品[20]，[22]，[23]，[45]，[46]更倾向于搜索可重复的cell结构，但首先保持骨干网络固定。后者可以提高搜索效率。近年来，在NAS领域的大量研究中，提出了许多高效的节点拓扑生成算法，这些算法基于功能强大且易于处理的架构搜索空间。事实上，如果我们有一个丰富而不是过于膨胀的搜索空间，即使使用随机搜索也可以获得强大的结果[20]，[40]。因此，本文主要研究基于细胞的医学图像分割层次搜索空间的构建。此外，我们使用当前的差分架构搜索方法[20]，[22]作为我们的搜索算法，以加快我们的搜索过程。

C. NAS在图像分割中的应用

NAS自提出以来主要解决图像分类任务。最近有一些研究将NAS应用于图像分割。Chen等[24]首先引入NAS来解决图像分割问题。作者表明，即使在构建递归搜索空间时使用随机搜索，架构搜索也优于人类发明的架构，并在许多分割数据集上实现了更好的性能。然而，这项工作并没有使用one-shot搜索，而是专注于搜索一个名为DPC(类似于解码器)的小空间金字塔池(ASPP)模块，并将预训练的骨干(修改的Xception)固定为编码器。Liu等[25]。提出Auto-DeepLab：一个通用的网络级搜索空间，并跨两级(网络级和cell级架构)联合搜索。作者指出，搜索空间包括各种现有的设计，如DeepLabv3, ConvDeconv和堆叠沙漏。然而，Auto-DeepLab的搜索空间不包括U-Net架构，而U-Net架构是医学图像分割领域最著名的架构。

与我们最相似的工作是[27]，我们在收缩阶段和扩展阶段都使用密集块代替卷积层。然而，我们用NAS方法搜索的cell替换了所有预先设计的

III. CELL-BASED ARCHITECTURE SEARCH SPACE

在本节中，我们首先描述我们使用的CNN架构的通用表示。我们将展示如何将cell结构表示为DAG。然后，我们将介绍医学图像分割的搜索空间。最后，我们将详细介绍两种类型的cell结构。

A. CNN架构表示

使用有向无环图(DAG)表示网络拓扑结构，其中每个节点hi表示输入图像或特征图，每个边 $e_{ij}$ 与节点 $h_i$ 和节点$h_j%之间的操作(例如卷积操作，池化操作和跳过连接)相关联。当DAG的生成方法不受限制时，其网络架构空间将非常大，这将给现有的搜索算法带来很大的挑战。因此，我们使用基于cell的架构。在确定最佳cell结构时，我们可以在骨干网络上将cell堆叠成更深的网络。换句话说，cell的架构是由整个网络共享的。

B. 医学图像分割的搜索空间

在本节中，我们将介绍DownSC和UpSC体系结构的基本操作集的选择。之后，我们将描述如何构造它们。

1) THE SELECTION OF PRIMITIVE OPERATIONS

如何选择合适的操作算子?我们研究了流行的CNN架构和在图像分类上取得巨大成功的前NAS，总结了我们工作中选择原语操作的重要标准：

No redundancy：这意味着每个基本操作都应该有一些独特的属性，不能被其他操作所取代。尽管一些工作 [25]、[34] 表明在进行过程中可能会考虑 5×5 卷积搜索。大的感受野，如5 × 5大小的卷积和7 × 7大小的卷积，可以通过堆叠足够的3 × 3大小的卷积来代替。因此，所有卷积操作将限制为3 × 3的大小，池化操作将限制为2 × 2。
Less parameters：意味着在搜索过程中消耗更少的内存资源；最初的U-Net需要大约3100万个参数，这对于移动设备来说是巨大的。在我们的工作中，将引入深度可分离卷积操作，因为它可以在不牺牲网络性能的情况下显着减少网络参数。

当将滑动步长(步长值)设置为2时，卷积运算可以将特征图的维数减半或加倍，后者称为“up”卷积。这表明向下操作和向上操作可以从同一个基数操作派生出来。相比之下，与图像分类中的原始操作不同，有些操作的“up”版本没有意义(例如身份操作)，池化操作的“up”版本(例如平均池化和最大池化)不存在。为方便起见，我们构建了3种不同类型的原语操作集。

在这里插入图片描述

如表1所示，深度卷积表示深度可分离操作，目前NAS方法中除空洞卷积[47]和cweight[48]外，普遍采用其他操作。Cweight操作为挤压激励（squeeze-and-excitation）操作[48]。在早期的CNN架构中，我们为所有通道生成的特征直接均匀地组合在一起。下一步自然是自动学习每个通道的权重。这正是挤压激励操作所做的。压缩激励操作抑制了一些冗余特征，并通过为特征通道分配权重来增强有用特征。Down cweight操作和up cweight操作会在通道重新加权之前将特征映射的维度减半或加倍。值得注意的是，当以前的NAS文章在图像分类任务上显示其良好的体系结构时，几乎没有出现空洞(收敛)卷积操作。然而，这个操作的初衷是为了解决图像分割问题。正如我们之前提到的，与图像分类任务不同，图像分割搜索架构需要高分辨率输入。巨大的内存消耗无疑是显而易见的。例如，一个512 × 512的图像，使用原始的U-Net架构来预测结果，批处理大小不超过4，在12GB Titan pascal GPU上加载模型。

我们对所有的卷积运算都使用Conv-ReLU-GN顺序。GN表示组归一化[49]，Wu等人表明这种归一化优于批归一化，尤其是在批大小小得多的情况下。由于分割任务的批处理规模比图像分类小得多，我们使用组归一化而不是批处理归一化。

C. 两种类型的cell结构

在这里插入图片描述

如图2 (b)所示，我们基于U型主干设计了两种类型的cell架构，称为DownSC和UpSC。在这两个cell中，输入节点被定义为前两层的cell输出[20]，[37]。如图3所示，所有与输入节点相邻的操作要么为Down PO，要么为Up PO，设 $H = h_i$ 为M个中间节点(或称特征映射层)的集合。与DARTS[20]相同，所有中间节点与输入节点之间的边总数为 $E = 2 M + M (M - 1) /2$ 。

在这里插入图片描述

在收缩步骤中，我们连接 $L_1$ cell来学习不同级别的语义上下文信息，并生成一个更小的概率图，称为 $DC_{out}$ 。同样，在展开步骤中，我们使用相同数量的cell恢复 $DC_{out}$ 中每个概率值的空间信息，并将其展开与输入图像一致。最终网络的cell总数，记为Nas-Unet，为 $L = 2L_1$ 。与FC-densenet架构[27]不同，我们不仅将卷积层替换为这些cell，而且将上采样操作和下采样操作移到cell中。换句话说，正常操作(如identity operation)和上/下采样操作都被考虑到cell中。如图2 (b)所示，转换也是UpSC中Norm PO的操作。我们的搜索空间涵盖了许多流行的u型架构，例如 U-Net [8] 和 FC-DenseNet [27]。值得注意的是，原始的U-Net架构在网络中间有一个额外的卷积层。然而，在我们的文章中，我们没有遵循这种经验，因为我们有一个严格对称的体系结构，由几个两对cell堆叠在一起。

IV. SEARCH STRATEGY

我们首先利用最近的研究[20]，[22]，[50]描述了如何构建一个包含所有候选路径的过参数化网络。然后，我们引入了一种更有效的架构参数更新策略来节省GPU(因为CPU在搜索过程中要慢得多，我们必须使用GPU)内存[50]。

A. 过度参数化的cell结构

给定cell结构 $C\left(e_1, \cdots, e_E\right)$ ，其中 $e_i$ 表示DAG中的某条边。设 $O=o_i$ 为上述三种具有 $N$ 个候选操作的基本操作集之一。我们没有将每条边与确定的操作相关联，而是将每条边设置为具有 $N$ 条并行路径的混合操作(如图4所示)，记为MixO。

在这里插入图片描述

因此，过度参数化的cell结构可以表示为 $C\left(e_1=M i x O_1, \cdots, e_E=M i x O_E\right)$ 。混合操作MixO的输出是根据它的N条路径的输出来定义的：
$\operatorname{Mix} O(x)=\sum_{(i=1)}^N w_i o_i(x) \tag{1}$
如式1所示， $w_i$ 表示 $o_i$ 的权重，在One-Shot[50]中为常数1，而在DARTS[20]中是通过对 $N$ 个实值架构参数 $\left\{\alpha_i\right\}: e^{\alpha_i} / \sum_j e^{\alpha_j}$ 应用softmax计算得到的。 $\alpha_i$ 的初始值为 $1/ N$ 。

B. GPU内存节省更新策略

在上面，每条边的输出是N个候选原始操作的混合操作，这意味着所有N个路径的输出特征图只有在所有操作都加载到GPU内存中才能计算出来。然而，训练一个紧凑模型只使用一条路径。因此，[20]和[50]与训练一个紧凑模型相比，大约需要N倍的GPU内存。在本文中，我们使用Cai等人提出的二进制门来学习二值化路径，而不是N条路径[22]。DARTS与二值门法(表示ProxylessNAS)的区别在于，前者每一步通过梯度下降更新所有的架构参数，而后者只更新其中一个。

在这里插入图片描述

如图5所示，在训练网络权值参数时，我们首先冻结架构参数，并对每批输入数据随机采样二值门。然后通过对训练数据集的标准梯度下降来更新活动路径的权值参数。当训练体系结构参数时，权重参数被冻结，然后我们重置二进制门并更新验证集中的体系结构参数(图5 (a))。这两个更新步骤以另一种方式执行。一旦结构参数的训练完成，我们就可以通过修剪冗余路径得到紧凑的结构。在这项工作中，我们简单地选择k (k = 2，对于我们的作品)最高路径权重的路径作为输入。综上所述，通过这种方式，无论N的值如何，架构参数的每一步更新只涉及两条路径，从而将内存需求降低到与训练紧凑模型相同的水平。值得注意的是，ProxylessNAS方法在每个更新步骤中只考虑两条路径进行更新，这将导致不在两条路径上的操作的训练程度远远低于在两条路径上的操作的训练程度。因此，我们需要更多的迭代来更新。此外，将不在GPU内存中的特征映射移动到GPU会花费额外的时间。

V. EXPERIMENTAL RESULTS

在这里，我们展示如何实现NAS-Unet的细节。之后，我们将报告基准数据集上的医学图像分割结果，我们的网络由最佳发现的细胞堆叠而成。

A. NAS-Unet实现细节

我们考虑DownSC和UpSC的中间cell数M = 4，cell总数L = 2L1 = 8。DownSC的搜索空间约为6⁶+ 5⁸ = 437281,UpSC的搜索空间约为6⁶+ 4⁸ = 112192。因此，搜索空间的总大小为10¹⁰数量级，比[25]要小得多。与DARTS不同的是，当特征映射的高度和宽度减半时，我们没有遵循过滤器数量加倍的做法。

我们在PASCAL VOC 2012数据集[26]上进行架构搜索，用于医学图像分割。更具体地说，我们使用480 × 480随机图像裁剪。我们在训练集中随机抽取一半的图像作为验证集。当我们使用DARTS搜索策略时，批大小为2，架构搜索优化总共进行了120个epoch。当我们使用二进制门更新策略时，批量大小可以是 8，但是需要 200 个 epoch（见第 IV-B 节）。

由于本文的重点是构建一个高效的医学图像分割的cell搜索空间，所以任何差分搜索策略的方法都可以工作[20]，[22]，[23]，[50]。我们希望在一个非常复杂的图像数据集(PASCAL VOC 2012数据集[26])上搜索代理cell架构，并将其转移到医学图像数据集。所以在我们的实验中，我们使用了DARTS更新策略。使用ProxylessNAS也是可行的，但需要分别搜索这些数据集。

在学习网络权值w时，我们使用动量为0.95的SGD优化器，余弦学习率从0.025衰减到0.01，权值衰减0.0003[20]。在学习结构α时，我们使用Adam优化器[51]，学习率为0.0003，权重衰减为0.0001。我们从经验上发现，当我们从一开始就优化 $\alpha$ 或遵循[25]-在一个恒定的epoch(如50)之后开始优化时，平均交集(mIoU)和像素精度(pixAcc)会缓慢增加(图6)。因此，我们从一开始就对 $\alpha$ 进行优化。整个架构搜索优化在一个Titan Pascal GPU上大约需要1.5天。

在这里插入图片描述

我们搜索的DownSC和UpSC如图7(a)和(b)所示。

在这里插入图片描述

从图7中可以看出，我们的搜索空间中的搜索处理更倾向于选择“cweight”版本操作(包括down cweight操作、up cweight操作和cweight操作)，因为“cweight”版本操作在DownSC和UpSC架构中都占了很大的比例。值得注意的是，cweight操作取代了标准的跳跃连接，在下采样和上采样路径之间传递高分辨率信息(包括更精确的空间信息和高级语义信息)(这正是图2 (b)中灰色箭头表示的变换)。这意味着传递高分辨率信息不是简单的串联，而是加权串联。

B. 医学图像分割结果

为了评估NAS-Unet的性能，我们使用了三种类型的医学图像数据集(磁共振成像(MRI)、计算机断层扫描(CT)和超声)：Promise12[52]、Chaos[53]和NERVE[54]数据集。所有模型的权值通过最小化负的表示Dice损失的Dice相似系数(DSC)函数来更新。我们使用DSC和平均交联(mIOU)来评估模型的性能。基线方法为U-Net[8]、FC-Densenet[27]。为了公平起见，我们使用Pytorch[55]重新实现它们，并使用相同的数据增强(我们还尝试提高一些噪声图像的质量[56]，[57])。此外，我们使用相同的Adam优化器，初始学习率为3.0e-4，权值衰减为5.0e-5，训练200次。

1) PROMISE12

Promise12[52]包含50例训练病例，这些病例包括前列腺横t2加权MR图像。训练集大约有1250张带有相应标签的图像(只有体素值0和1)。每个2d MRI切片被调整为256 × 256维，直方图使用对比度有限的自适应直方图均衡化(CLAHE)进行均衡化。训练数据集分为40个训练用例和10个验证用例。如表2所示，我们的模型在没有任何预训练的情况下优于所有基线方法。Train Time 和 GM 分别表示 batch size 为 2 时的训练时间成本（总天数和小时数）和 batch size 为 2 时的 GPU 内存成本（如下表）。

在这里插入图片描述

2) CHAOS

Chaos[53]挑战将于2019年4月8-11日在意大利威尼斯举行的IEEE国际生物医学成像研讨会(ISBI)上举行。挑战将从ISBI会议开始。五个比赛将使用两个数据库(腹部CT和MRI)，我们选择两个:肝脏分割(仅CT)和腹部器官分割(仅MRI)。第一个挑战是从计算机断层扫描(CT)数据集中分割肝脏，第二个挑战是从磁共振成像(MRI)数据集中分割四个腹部器官(即肝脏、脾脏、右肾和左肾)。这两个数据库中的每个数据集对应于属于单个患者的一系列DICOM图像。第一个数据库包含40个不同患者的CT图像。总共提供2874片(每片512 × 512)用于培训，1408片用于测试。第二个数据库包括来自两个不同MRI序列的120个DICOM数据集(T1-DUAL期(40个数据集)、期外(40个数据集)和T2-SPIR(40个数据集))。数据集的分辨率为256 × 256，切片数量在26到50之间(平均36)。总共将提供1594片(每个序列532片)用于训练，1537片用于测试。

目前，我们使用2874片CT图像和940片MR图像来评估我们的模型。如表3所示，我们的模型在CT图像和MR图像上的性能都优于所有基线方法没有任何预训练。值得一提的是，在MR图像数据集中，我们通过将五个类别重新加权为Dice损失函数，改善了类别不平衡问题(这五个类别的频率比为1066:40:3.7:4.1)。批大小也设置为400。

在这里插入图片描述

3) ULTRASOUND NERVE

超声神经分割是Kaggle在2016年面临的挑战。本次比赛的任务是在超声图像中分割一组称为臂丛神经(BP)的神经。有些图像(大约60%的训练集)不包含臂丛区域。图像的大小为580 × 420像素。有5635张训练图像和5508张测试图像(其中20%用于公开排名，80%用于最终排名)。训练数据集包含许多矛盾图像，这意味着两张非常相似的图像，但其中一张图像具有非空掩模，另一张图像具有空掩模(如图8所示)。

在这里插入图片描述

因此，我们遵循Juliean方法[58]，通过计算每个图像的签名来去除矛盾图像。之后的区别是两个图像的两个签名向量之间的余弦距离。这将得到所有训练集图像的距离矩阵，然后对其设置阈值以决定应该删除哪些图像。最后，我们保留了4456张训练图像(从5635张中)。最后，我们随机分割0.2个训练图像作为验证集。如表4所示，在没有任何预训练的情况下，我们的模型比所有基线方法的性能都要好。

在这里插入图片描述

VI. CONCLUSION

在本文中，我们尝试将神经架构搜索扩展到医学图像分割中。我们为我们的搜索空间设计了三种类型的原始操作集，以及由 DownSC 和 UpSC 堆叠的基于搜索cell的架构。我们选择U-like backbone(我们的搜索空间包括U-net及其许多变体)进行搜索，并引入一种节省内存的搜索算法(Binary gate)[22]来加速搜索过程。搜索结果，NAS-Unet，是通过从头开始训练医学图像分割数据集来评估的。在Promise12上，NAS-Unet的性能明显优于基线方法。在Chaos和Ultrasound Nerve方面，NAS-Unet也优于这些基线方法。

NAS-Unet Neural Architecture Search for Medical Image Segmentation

NAS-Unet:医学图像分割的神经架构搜索

ABSTRACT

I. INTRODUCTION

II. RELATED WORK

A. 基于现代CNN的医学图像分割

B. 神经架构搜索

C. NAS在图像分割中的应用

III. CELL-BASED ARCHITECTURE SEARCH SPACE

A. CNN架构表示

B. 医学图像分割的搜索空间

C. 两种类型的cell结构

IV. SEARCH STRATEGY

A. 过度参数化的cell结构

B. GPU内存节省更新策略

V. EXPERIMENTAL RESULTS

A. NAS-Unet实现细节

B. 医学图像分割结果

1) PROMISE12

2) CHAOS

3) ULTRASOUND NERVE

VI. CONCLUSION

猜你喜欢