U-Net: Convolutional Networks for Biomedical Image Segmentation - 用于生物医学图像分割的卷积网络(MICCAI 2016)
声明:此翻译仅为个人学习记录
文章信息
- 标题:U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI 2016)
- 作者:Olaf Ronneberger, Philipp Fischer and Thomas Brox
- 文章链接:https://arxiv.org/pdf/1505.04597.pdf
- 文章代码:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net
(推荐:亦可参考 图像 处理 - 开源算法集合)
摘要
人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,该策略依赖于数据增强的强大使用,以更有效地使用可用的注释样本。该体系结构由捕获上下文的收缩路径和实现精确定位的对称扩展路径组成。我们证明,这种网络可以从极少数图像中进行端到端训练,并且在电子显微镜堆栈中神经元结构分割的ISBI挑战中优于先前的最佳方法(滑动窗口卷积网络)。使用在透射光显微镜图像(相位对比度和DIC)上训练的同一网络,我们在2015年的这些类别中以很大优势赢得了ISBI细胞跟踪挑战。此外,网络速度很快。在最近的GPU上,512x512图像的分割只需不到一秒钟的时间。完整的实施(基于Caffe)和经过训练的网络在如下网址 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.
1. 引言
在过去的两年里,深度卷积网络在许多视觉识别任务中的表现优于现有技术,例如[7,3]。虽然卷积网络已经存在很长时间[8],但由于可用训练集的大小和所考虑的网络的大小,它们的成功是有限的。Krizhevsky等人[7]的突破是由于在具有100万个训练图像的ImageNet数据集上对具有8层和数百万个参数的大型网络进行监督训练。从那时起,甚至更大、更深层次的网络也得到了训练[12]。
卷积网络的典型用途是在分类任务中,其中图像的输出是单个类别标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,所需的输出应该包括定位,即,应该为每个像素分配一个类标签。此外,在生物医学任务中,成千上万的训练图像通常是遥不可及的。因此,Ciresan等人[1]在滑动窗口设置中训练网络,通过提供每个像素周围的局部区域(块)作为输入来预测每个像素的类标签。首先,这个网络可以定位。其次,以块为单位的训练数据远大于训练图像的数量。由此产生的网络在2012年ISBI上以较大优势赢得了EM细分挑战。
图1. U-net架构(例如最低分辨率的32x32像素)。每个蓝色方框对应一个多通道特征图。通道的数量表示在方框的顶部。x-y尺寸被提供在框的左下边缘处。白框表示复制的特征图。箭头表示不同的操作。
显然,Ciresan等人[1]的策略有两个缺点。首先,它非常慢,因为每个块都必须单独运行网络,而且由于块重叠,存在大量冗余。其次,在定位准确性和上下文使用之间存在权衡。较大的块需要更多的最大池层,这会降低定位精度,而较小的块只允许网络看到很少的上下文。最近的方法[11,4]提出了一种考虑多层特征的分类器输出。良好的定位和上下文的使用是可能的。
在本文中,我们建立在一个更优雅的架构之上,即所谓的“全卷积网络”[9]。我们修改和扩展了这种架构,使其能够处理很少的训练图像,并产生更精确的分割;见图1。[9]中的主要思想是通过连续的层来补充通常的契约网络,其中池化算子被上采样算子所取代。因此,这些层提高了输出的分辨率。为了定位,来自收缩路径的高分辨率特征与上采样输出相结合。然后,连续的卷积层可以学习基于该信息来组装更精确的输出。
图2. 用于任意大图像无缝分割的重叠瓦片策略(此处为EM堆栈中神经元结构的分割)。预测在黄色区域的分割,需要在蓝色区域内的图像数据作为输入。缺少的输入数据是通过镜像推断出来的
我们架构中的一个重要修改是,在上采样部分,我们还有大量的特征通道,这些通道允许网络将上下文信息传播到更高分辨率的层。因此,扩展路径或多或少与收缩路径对称,并产生u形架构。该网络没有任何完全连接的层,并且只使用每个卷积的有效部分,即分割图只包含像素,对于这些像素,在输入图像中可以获得完整的上下文。该策略允许通过重叠瓦片策略对任意大的图像进行无缝分割(见图2)。为了预测图像的边界区域中的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大图像很重要,因为否则分辨率将受到GPU内存的限制。
对于我们的任务,可用的训练数据非常少,我们通过对可用的训练图像应用弹性变形来使用过度的数据增强。这允许网络学习对这种变形的不变性,而不需要在带注释的图像语料库中看到这些变换。这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。Dosovitskiy等人[2]在无监督特征学习的范围内显示了数据增强对学习不变性的价值。
许多细胞分割任务中的另一个挑战是分离同一类的接触目标;见图3。为此,我们建议使用加权损失,其中在接触细胞之间分离背景标签在损失函数中获得较大的权重。
所得到的网络适用于各种生物医学分割问题。在这篇论文中,我们展示了EM堆栈中神经元结构分割的结果(始于2012年ISBI的一项持续竞争),在那里我们的表现优于Ciresan等人的网络。[1]。此外,我们展示了2015年ISBI细胞跟踪挑战的光学显微镜图像中的细胞分割结果。在这里,我们在两个最具挑战性的2D透射光数据集上以较大优势获胜。
2. 网络架构
网络架构如图1所示。它由收缩路径(左侧)和扩张路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它包括重复应用两个3x3卷积(未填充卷积),每个卷积后面都有一个校正线性单元(ReLU)和一个2x2最大池化操作,步长为2,用于下采样。在每个下采样步骤,我们将特征通道的数量增加一倍。扩展路径中的每一步都包括特征图的上采样,然后是将特征通道数量减半的2x2卷积(“上卷积”),与收缩路径中相应裁剪的特征图的级联,以及两个3x3卷积,每个卷积后面都有ReLU。由于每个卷积中都会丢失边界像素,因此裁剪是必要的。在最后一层,使用1x1卷积将每个64分量特征向量映射到期望数量的类。网络总共有23个卷积层。
为了实现输出分割图的无缝拼接(见图2),重要的是选择输入拼块大小,以便将所有2x2最大池化操作应用于具有偶数x和y大小的层。
3. 训练
输入图像及其相应的分割图用于通过Caffe[6]的随机梯度下降实现来训练网络。由于未填充的卷积,输出图像比输入图像小一个恒定的边界宽度。为了最大限度地减少开销并最大限度地利用GPU内存,我们更喜欢大的输入瓦片,而不是大批量,因此将批量减少为单个图像。因此,我们使用高动量(0.99),使得大量先前看到的训练样本确定当前优化步骤中的更新。
通过在最终特征图上的逐像素软最大值与交叉熵损失函数相结合来计算能量函数。软最大值定义为 p k ( x ) = e x p ( a k ( x ) ) / ∑ k ′ = 1 K e x p ( a k ′ ( x ) ) p_k(x)=exp(a_k(x))/\sum_{k'=1}^{K}{exp(a_{k'}(x))} pk(x)=exp(ak(x))/∑k′=1Kexp(ak′(x)),其中 a k ( x ) a_k(x) ak(x)表示在像素位置 x ∈ Ω x∈Ω x∈Ω(其中 Ω ⊂ Z 2 Ω ⊂ Z^2 Ω⊂Z2)的特征通道 k k k中的激活。 K K K是类的数量, p k ( x ) p_k(x) pk(x)是近似的最大函数。即,对于具有最大激活 a k ( x ) a_k(x) ak(x)的 k k k, p k ( x ) ≈ 1 p_k(x)≈1 pk(x)≈1,而对于所有其他 k k k,则 p k ( x ) ≈ 0 p_k(x)≈0 pk(x)≈0。然后,交叉熵在每个位置惩罚 p ℓ ( x ) ( x ) p_{\ell(x)}(x) pℓ(x)(x)与1的偏差,使用
其中 ℓ : Ω → { 1 , … , K } \ell:Ω→\{1,…,K\} ℓ:Ω→{ 1,…,K}是每个像素的真实标签,并且 w : Ω → R w:Ω→R w:Ω→R是一个权重图,我们引入它是为了在训练中赋予一些像素更多的重要性。
图3. 玻璃上的HeLa细胞用DIC(微分干涉对比度)显微镜记录。(a) 原始图像。(b) 叠加真值分割。不同的颜色表示HeLa细胞的不同实例。(c) 生成的分割掩码(白色:前景,黑色:背景)。(d) 映射,以迫使网络学习边界像素。
我们为每个真值分割预先计算权重图,以补偿训练数据集中某一类像素的不同频率,并迫使网络学习我们在接触单元之间引入的小分离边界(见图3c和d)。
使用形态学运算来计算分离边界。然后权重图计算为
其中 w c : Ω → R w_c:Ω→R wc:Ω→R是平衡类频率的权重图, d 1 : Ω → R d_1:Ω→R d1:Ω→R表示到最近细胞边界的距离, d 2 : Ω → R d_2:Ω→R d2:Ω→R是到第二个最近细胞的边界的距离。在我们的实验中,我们设置 w 0 = 10 w_0=10 w0=10和 σ ≈ 5 σ≈5 σ≈5个像素。
在具有许多卷积层和通过网络的不同路径的深度网络中,权重的良好初始化是极其重要的。否则,网络的某些部分可能会过度激活,而其他部分则永远不会做出贡献。理想地,初始权重应该被适配,使得网络中的每个特征图具有近似的单位方差。对于具有我们的架构(交替卷积和ReLU层)的网络,这可以通过从标准偏差为 2 / N \sqrt{2/N} 2/N的高斯分布中绘制初始权重来实现,其中N表示一个神经元的传入节点的数量[5]。例如,对于前一层中的3x3卷积和64个特征通道, N = 9 ⋅ 64 = 576 N=9·64=576 N=9⋅64=576。
3.1 数据增强
当只有很少的训练样本可用时,数据增强对于教导网络所需的不变性和鲁棒性特性至关重要。在显微镜图像的情况下,我们主要需要移位和旋转不变性,以及对变形和灰度值变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练具有很少注释图像的分割网络的关键概念。我们使用粗糙的3乘3网格上的随机位移矢量生成平滑变形。位移是从具有10个像素标准偏差的高斯分布中采样的。然后使用双三次插值来计算每个像素的位移。收缩路径末端的丢弃层执行进一步的隐式数据增强。
4. 实验
我们展示了u-net在三种不同分割任务中的应用。第一项任务是在电子显微镜记录中对神经元结构进行分割。数据集和我们获得的分割的示例如图2所示。我们提供完整的结果作为补充材料。该数据集由2012年ISBI启动的EM细分挑战[14]提供,目前仍在接受新的贡献。训练数据是来自果蝇一龄幼虫腹神经索(VNC)的连续切片透射电子显微镜的一组30张图像(512x512像素)。每个图像都有一个相应的、完全注释的细胞(白色)和膜(黑色)的真值分割图。测试集是公开的,但它的分割图是保密的。可以通过将预测的膜概率图发送给组织者来获得评估。评估是通过在10个不同级别对地图进行阈值处理,并计算“翘曲误差”、“随机误差”和“像素误差”[14]来完成的。
u-net(在输入数据的7个旋转版本上平均)在没有任何进一步的预处理或后处理的情况下实现了0.0003529的翘曲误差(新的最佳分数,见表1)和0.0382的随机误差。
这明显优于Ciresan等人[1]的滑动窗口卷积网络结果,后者的最佳提交具有0.000420的翘曲误差和0.0504的随机误差。就随机误差而言,该数据集上唯一性能更好的算法使用了应用于Ciresan等人[1]的概率图的高度数据集特定的后处理方法(The authors of this algorithm have submitted 78 different solutions to achieve this result.)。
表1. EM分割挑战排名[14](2015年3月6日),按扭曲误差排序。
图4. ISBI细胞追踪挑战的结果。(a) “PhC-U373”数据集的输入图像的一部分。(b) 分割结果(青色掩模)与手动真值(黄色边界)(c)“DIC HeLa”数据集的输入图像。(d) 分割结果(随机彩色遮罩)与手动真值(黄色边界)。
表2. 2015年ISBI细胞追踪挑战的细分结果(IOU)。
我们还将u-net应用于光显微图像中的细胞分割任务。该分割任务是2014年和2015年ISBI细胞跟踪挑战的一部分[10,13]。第一个数据集“PhC-U373”(Data set provided by Dr. Sanjay Kumar. Department of Bioengineering University of California at Berkeley. Berkeley CA (USA))包含通过相差显微镜记录的聚丙烯酰亚胺基质上的胶质母细胞瘤-星形细胞瘤U373细胞(见图4a、b和补充材料)。它包含35个部分注释的训练图像。在这里,我们实现了92%的平均IOU(“交并比”),这明显优于83%的第二好算法(见表2)。第二个数据集“DIC HeLa”(Data set provided by Dr. Gert van Cappellen Erasmus Medical Center. Rotterdam. The Netherlands)是通过差分干涉对比度(DIC)显微镜记录的平板玻璃上的HeLa细胞(见图3、图4c、d和补充材料)。它包含20个部分注释的训练图像。在这里,我们实现了77.5%的平均IOU,这明显优于第二好的46%的算法。
5. 结论
u-net架构在非常不同的生物医学分割应用上实现了非常好的性能。得益于弹性变形的数据增强,它只需要很少的注释图像,并且在NVidia Titan GPU(6 GB)上的训练时间非常合理,仅为10小时。我们提供了完整的基于Caffe[6]的实现和经过训练的网络(U-net implementation, trained networks and supplementary material available at http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net)。我们确信u-net架构可以很容易地应用于更多的任务。
Acknowlegements
This study was supported by the Excellence Initiative of the German Federal and State governments (EXC 294) and by the BMBF (Fkz 0316185B)
References
- Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012)
- Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)
- Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)
- Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]
- He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]
- Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadar rama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]
- Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
- LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4), 541–551 (1989)
- Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]
- Maska, M., (…), de Solorzano, C.O.: A benchmark for comparison of cell tracking algorithms. Bioinformatics 30, 1609–1617 (2014)
- Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded hierarchical models and logistic disjunctive normal networks. In: Computer Vision (ICCV), 2013 IEEE International Conference on. pp. 2168–2175 (2013)
- Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2014), arXiv:1409.1556 [cs.CV]
- WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html
- WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/isbi_challenge/