U-Net: Convolutional Networks for Biomedical Image Segmentation------2015CVPR UNet论文解读

U-Net: Convolutional Networks for Biomedical Image Segmentation

Abstract

人们普遍认为,成功地训练深度网络需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,该策略依靠大量使用数据增强功能来更有效地使用可用的带注释的样本。**该体系结构包括捕获上下文的收缩路径和实现精确定位的对称扩展路径。**我们展示了这样的网络可以从很少的图像进行端到端训练,并且在ISBI挑战方面优于现有的最佳方法(滑动窗口卷积网络),可用于分割电子显微镜堆栈中的神经元结构。使用在透射光显微镜图像(相差和DIC)上训练过的同一网络,我们在这些类别中赢得了2015年ISBI细胞跟踪挑战赛的冠军。而且,网络速度很快。在最新的GPU上,对512x512图像进行分割所需的时间不到一秒钟。完整的实施(基于Caffe)和经过培训的网络可在以下位置获得: http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.

1 Introduction

在过去的两年中,深度卷积网络在许多视觉识别任务中的表现超越了现有技术[7,3]。尽管卷积网络已经存在很长时间了[8],但由于可用训练集的大小和所考虑的网络的大小,卷积网络的成功受到限制。 Krizhevsky等人的突破 [7]是由于对具有8层的大型网络和具有100万个训练图像的ImageNet数据集上的数百万个参数进行了监督训练。从那时起,甚至更大更深的网络也得到了训练[12]。

卷积网络的典型用途是用于分类任务,其中图像的输出是单个类别标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,期望的输出应包括定位,即应该将类别标签分配给每个像素。此外,在生物医学任务中通常无法获得数千个训练图像。因此,Ciresan等人 [1]通过在滑动窗口设置中训练网络来预测每个像素的类别标签,方法是在该像素周围提供一个局部区域(补丁)作为输入。首先,该网络可以本地化。其次,就补丁而言,训练数据远大于训练图像的数量。最终的网络在ISBI 2012上大幅度赢得了EM细分挑战。
在这里插入图片描述
图1. U-net体系结构(最低分辨率的32x32像素示例)。 每个蓝色框对应一个多通道特征图。 通道数标在方框的顶部。 x-y尺寸位于框的左下边缘。 白框代表复制的要素图。 箭头表示不同的操作。

显然,Ciresan等人的策略[1]有两个缺点。 首先,它很慢,因为必须为每个修补程序分别运行网络,并且由于修补程序重叠而导致大量冗余。 其次,在定位精度和上下文使用之间需要权衡。 较大的修补程序需要更多的最大池化层,这会降低定位精度,而较小的修补程序使网络只能看到很少的上下文。 最近的方法[11,4]提出了一种分类器输出,该输出考虑了来自多层的特征。 良好的本地化和上下文的使用是可能的。

在本文中,我们基于更优雅的架构,即所谓的“全卷积网络” [9]。 我们修改并扩展了此体系结构,使其可以使用很少的训练图像并产生更精确的分割参见图1[9]中的主要思想是通过连续的层来补充通常的合同网络,其中合并池运算符被上采样运算符代替。因此,这些层提高了输出的分辨率。 为了定位,将收缩路径中的高分辨率特征与上采样的输出结合在一起。 然后,连续的卷积层可以根据此信息学习组装更精确的输出。
图2.用于任意大图像的无缝分割的重叠拼贴策略(此处为EM堆栈中的神经元结构的分割)。 对黄色区域中的分割的预测需要蓝色区域内的图像数据作为输入。 丢失的输入数据通过镜像推断
图2.用于任意大图像的无缝分割的重叠拼贴策略(此处为EM堆栈中的神经元结构的分割)。 对黄色区域中的分割的预测需要蓝色区域内的图像数据作为输入。 丢失的输入数据通过镜像推断

我们架构的一项重要修改是,在上采样部分,我们还拥有大量功能通道,这些功能通道允许网络将上下文信息传播到更高分辨率的层。结果,膨胀路径或多或少地与收缩路径对称,并且产生u形结构。**网络没有任何完全连接的层,仅使用每个卷积的有效部分,即分割图仅包含像素,在输入图像中可获得完整的上下文。**此策略允许任意大的无缝分割通过重叠-平铺策略生成图像(参见图2)。为了预测图像边界区域中的像素,可通过镜像输入图像来推断缺失的上下文。这种切片策略对于将网络应用于大图像非常重要,因为否则分辨率会受到GPU内存的限制。

至于我们的任务,几乎没有可用的训练数据,我们通过对可用的训练图像应用弹性变形来使用过多的数据增强。这允许网络学习此类变形的不变性,而无需在带注释的图像语料库中查看这些转换。这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟实际变形。 Dosovitskiy等人已经证明了数据增强对于学习不变性的价值[2]在无监督特征学习的范围内。

许多细胞分割任务中的另一个挑战是分离同一类别的接触对象。参见图3。为此,我们建议使用加权损失,其中触摸单元之间的分离背景标签在损失函数中获得较大的权重。

所得的网络适用于各种生物医学分割问题。 在本文中,我们展示了关于EM堆栈中神经元结构分割的结果(一场持续的竞争始于ISBI 2012),在此方面我们胜过了Ciresan等人的网络。 [1]。 此外,我们在来自ISBI细胞追踪挑战赛2015的光学显微镜图像中显示了细胞分割的结果。在这里,我们在两个最具挑战性的2D透射光数据集上大获全胜。

2 Network Architecture

网络结构如图1所示。它由一个收缩路径(左侧)和一个扩展路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它由两个3x3卷积(未填充卷积)的重复应用组成,每个卷积后跟一个整流线性单位(ReLU)和一个2x2最大合并运算,步长为2用于下采样。在每个降采样步骤中,我们将特征通道的数量加倍。扩展路径中的每个步骤都包括对特征图进行上采样,然后进行2x2卷积(“向上卷积”),以将特征通道的数量减半,并与从收缩路径中相应裁剪的特征图进行级联,再进行两个3x3卷积,每个后跟一个ReLU。由于每次卷积中都会丢失边界像素,因此有必要进行裁剪。在最后一层,使用1x1卷积将每个64分量特征向量映射到所需的类数。该网络总共有23个卷积层。

为了无缝拼接输出分割图(请参见图2),重要的是选择输入图块大小,以便将所有2x2最大合并操作应用于x和y大小均等的图层。

3 Training

输入图像及其对应的分割图用于使用Caffe [6]的随机梯度下降实现来训练网络。由于未填充卷积,输出图像比输入小了恒定边界宽度。 为了最大程度地减少开销并最大程度地利用GPU内存,我们倾向于在大批量时使用较大的输入图块,从而将批量减少为单个图像。因此,我们使用高动量(0.99),以使大量先前看到的训练样本确定当前优化步骤中的更新。

能量函数由最终特征图上的像素级soft-max与交叉熵损失函数组合而成。 soft-max定义为在这里插入图片描述ak(x)表示特征通道k在在这里插入图片描述像素位置处的激活,K是类别数量,pk(x)是近似最大函数。即pk(x)约等于1对于具有最大激活ak(x)的pk(x)约等于0以及对于所有其他k的pk(x)约等于0。然后,交叉熵会惩罚每个位置上pl(x)与1的偏差在这里插入图片描述
在这里插入图片描述
图3.用DIC(微分干涉对比)显微镜记录玻璃上的HeLa细胞(a)原始图像(b)覆盖地面实况分割。 不同的颜色表示HeLa细胞的不同情况(c)生成分割蒙版(白色:前景,黑色:背景)(d)以像素为单位的权重映射,以迫使网络学习边界像素。

我们为每个地面真值分割预先计算权重图,以补偿训练数据集中某个类别的像素的不同频率,并迫使网络学习我们在触摸单元之间引入的小的分隔边界(请参见图3c 和d)。

使用形态学运算来计算分离边界,然后将权重图计算为
在这里插入图片描述
wc : Ω → R是平衡类别频率的权重图, d1 : Ω → R表示到最近单元格边界的距离,d 2 : Ω → R到第二个最近的像元边界的距离。在我们的实验中,我们设置w0 = 10和σ≈5个像素。

在具有许多卷积层和通过网络的不同路径的深度网络中,权重的良好初始化非常重要。 否则,网络的某些部分可能会进行过多的激活,而其他部分则永远不会起作用。 理想情况下,应调整初始权重,以使网络中的每个特征图都具有大约单位方差。

对于具有我们架构(交替卷积和ReLU层)的网络,可以通过从高斯分布中提取初始权重(标准差为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HbwGXn42-1575518059814)(E:\语义分割\论文_翻译_markdown\picture\unet_8.JPG)])来实现,其中N表示一个神经元的传入节点数[5]。 例如。 对于上一层的3x3卷积和64个特征通道,N = 9·64 = 576。

3.1 Data Augmentation**

当只有很少的训练样本可用时,数据扩充对于向网络传授所需的不变性和鲁棒性至关重要。 对于显微图像,我们首先需要平移和旋转不变性,以及对变形和灰度值变化的鲁棒性。 特别是训练样本的随机弹性变形似乎是训练带有很少注释图像的分割网络的关键概念。 我们在3 x 3粗网格上使用随机位移矢量生成平滑变形。 从具有10个像素标准偏差的高斯分布中采样位移。 然后使用双三次插值法计算每个像素的位移。 收缩路径末端的退出层进一步执行隐式数据扩充。

4 Experiments

我们演示了u-net在三个不同细分任务中的应用。第一项任务是在电子显微镜记录中分割神经元结构。图2显示了数据集和获得的细分的示例。我们提供完整结果作为补充材料。数据集由EM细分挑战[14]提供,该挑战始于ISBI 2012,目前仍在接受新的挑战贡献。训练数据是一组来自果蝇第一龄幼虫腹侧腹神经索(VNC)的连续切片透射电镜的30张图像(512x512像素)。每个图像都带有一个对应的完全注释的地面真相分割图,用于细胞(白色)和膜(黑色)。该测试集是公开可用的,但其分段图是保密的。可以通过将预测的膜概率图发送给组织者来获得评估。通过在10个不同级别对地图进行阈值化并计算“翘曲误差”,“ Rand误差”和“像素误差”来进行评估[14]。

u-net(输入数据的7个旋转版本的平均值)无需进行任何进一步的预处理或后处理即可实现0.0003529(新的最佳分数,请参见表1)的翘曲误差和0.0382的rand误差。

这比Ciresan等人的滑动窗口卷积网络结果要好得多 [1],其最佳提交的翘曲误差为0.000420,兰德误差为0.0504。 就兰德误差而言,在该数据集上唯一表现更好的算法使用应用于Ciresan等人概率图的高度数据集特定的后处理方法1[1]。

表1. EM细分挑战的排名[14](2015年3月6日),按翘曲误差排序。
在这里插入图片描述
在这里插入图片描述
图4 ISBI细胞追踪挑战的结果 (a)“ PhC-U373”数据集的输入图像的一部分(b)具有手动地面真实性的分割结果(青色蒙版)(黄色边框)(c)“ DIC-HeLa”数据集的输入图像(d)具有手动地面真实性(黄色边框)的分割结果(随机彩色蒙版)

表2. 2015年ISBI细胞跟踪挑战的分段结果(IOU)。
在这里插入图片描述
我们还将u-net应用于光学显微图像中的细胞分割任务。 该细分任务是2014年和2015年ISBI小区追踪挑战的一部分[10,13]。 第一个数据集“ PhCU373” 2包含在聚丙烯酰亚胺底物上的胶质母细胞瘤-星形细胞瘤U373细胞,通过相差显微镜观察(参见图4a,b和补充材料)。 它包含35个部分注释的训练图像。 在这里,我们实现了92%的平均IOU(“联合之上的交集”),明显好于83%的次优算法(请参见表2)。 第二个数据集“ DIC-HeLa” 3是平板玻璃上的HeLa细胞,通过微分干涉对比(DIC)显微镜记录(请参见图3,图4c,d和补充材料)。 它包含20个部分注释的训练图像。 在这里,我们达到了77.5%的平均IOU,明显好于46%的次优算法。

5 Conclusion

u-net体系结构在截然不同的生物医学细分应用中实现了非常好的性能。 由于具有弹性变形的数据增强,它仅需要很少的带注释的图像,并且在NVidia Titan GPU(6 GB)上只有10小时的非常合理的训练时间。 我们提供了完整的基于Caffe [6]的实现和受过训练的网络4。 我们确信u-net架构可以轻松地应用于更多任务

发布了47 篇原创文章 · 获赞 21 · 访问量 7246

猜你喜欢

转载自blog.csdn.net/qq_18315295/article/details/103402115