机器学习笔记 - U-Net论文解读

一、摘要

        人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,该策略依赖于数据增强来更有效地使用可用的注释样本。该架构由一个用于捕获上下文的收缩路径和一个能够实现精确定位的对称扩展路径组成。我们表明,这样的网络可以从很少的图像进行端到端训练,并且在ISBI挑战赛中用于分割电子显微镜堆栈中的神经元结构,其性能优于先前的最佳方法(滑动窗口卷积网络)。使用在透射光显微镜图像(相差和DIC)上训练的相同网络,我们在这些类别中大幅赢得了2015年ISBI细胞跟踪挑战赛。此外,网络速度很快。在最近的GPU上分割512x512图像只需不到一秒的时间。完整的实现(基于Caffe)和经过训练的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net获得。

二、引言

        在过去的两年里,深度卷积网络在许多视觉识别任务中的表现都超过了最先进的水平,例如,虽然卷积网络已经存在了很长时间,但由于可用训练集的大小和所考虑网络的大小,它们的成功受到了限制。Krizhevsky等人的突破。是由于在具有100万张训练图像的ImageNet数据集上对具有层和数百万参数的大型网络进行了监督训练。从那时起,已经训练了更大更深的网络。

        卷积网络的典型用途是分类任务,其中图像的输出是单个类标签。然而,在许多视觉任务中,尤其是在生物医学图像处理中,所需的输出应该包括定位,即应该为每个像素分配一个类标签。此外,数以千计的训练图像在生物医学任务中通常是遥不可及的。因此,Ciresan 等人。在滑动窗口设置中训练一个网络,通过提供该像素周围的局部区域(补丁)作为输入来预测每个像素的类别标签。首先,这个网络可以本地化。其次,就补丁而言,训练数据远大于训练图像的数量。由此产生的网络在ISBI2012的EM分割挑战中大获全胜。

        显然,Ciresan 等人的策略。有两个缺点。首先,它非常慢,因为网络必须为每个补丁单独运行,并且由于重叠补丁而存在大量冗余。其次,在定位准确性和上下文使用之间存在权衡。较大的补丁需要更多的最大池化层,这会降低定位精度,而小补丁允许网络只能看到很少的上下文。最近的方法提出了一个分类器输出,它考虑了来自多个层的特征。良好的本地化和上下文的使用是可能的。

        在本文中,我们建立在一个更优雅的架构上,即所谓的全卷积网络。我们修改和扩展了这种架构,使其适用于很少的训练图像并产生更精确的分割;参见图1。其中的主要思想是通过连续层来补充通常的收缩网络,其中池化算子被上采样算子取代。

图1:用于生物医学图像分割的卷积网络
U-net架构(最低分辨率下的32x32像素示例)。每个蓝色框对应一个多通道特征图。通道数显示在框的顶部。x-y尺寸位于框的左下边缘。白框代表复制的特征图。箭头表示不同的操作。

         因此,这些层增加了输出的分辨率。为了进行定位,将来自收缩路径的高分辨率特征与上采样输出相结合。然后一个连续的卷积层可以学习根据这些信息组装一个更精确的输出。

        我们架构中的一个重要修改是,在上采样部分,我们还有大量的特征通道,这允许网络将上下文信息传播到更高分辨率的层。因此,扩展路径或多或少与收缩路径对称,并产生u形架构。网络没有任何全连接层,只使用每个卷积的有效部分,即分割图只包含输入图像中完整上下文可用的像素。该策略允许通过重叠平铺策略无缝分割任意大的图像(参见图2)。为了预测图像边界区域的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大图像很重要,因为否则分辨率将受到GPU内存的限制。

图2:任意大图像无缝分割的重叠平铺策略(这里是EM堆栈中神经元结构的分割)。黄色区域的分割预测,需要蓝色区域内的图像数据作为输入。通过镜像推断丢失的输入数据

         至于我们的任务,可用的训练数据非常少,我们通过对可用的训练图像应用弹性变形来使用过多的数据增强。这允许网络学习对此类变形的不变性,而无需在带注释的图像语料库中查看这些转换。这在生物医学分割中尤为重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。Dosovitskiy等人已经证明了数据增强对于学习不变性的价值。 在无监督特征学习的范围内。

        许多细胞分割任务中的另一个挑战是分离同一类的触摸对象;参见图3。为此,我们建议使用加权损失,其中触摸单元之间的分离背景标签在损失函数中获得很大的权重。

图3:用DIC(微分干涉对比)显微镜记录的玻璃上的HeLa细胞。(a)原始图像。(b)与地面实况分割叠加。不同的颜色表示HeLa细胞的不同实例。(c)生成的分割掩码(白色:前景,黑色:背景)。(d)使用逐像素损失权重进行映射,以强制网络学习边界像素。

         由此产生的网络适用于各种生物医学分割问题。在本文中,我们展示了EM堆栈中神经元结构分割的结果(从ISBI 2012开始的一项正在进行的竞赛),其中我们的表现优于Ciresan等人的网络。此外,我们在2015年ISBI细胞跟踪挑战赛的光学显微镜图像中展示了细胞分割的结果。在这里,我们在两个最具挑战性的2D透射光数据集上大获全胜。

三、网络架构

        网络架构如图1所示。它由收缩路径(左侧)和扩展路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它由两个3x3卷积(未填充卷积)的重复应用组成,每个卷积后跟一个直角线性单元(ReLU)和一个2x2最大池化操作,步幅为2,用于下采样。在每个下采样步骤中,我们将特征通道的数量加倍。扩展路径中的每一步都包括对特征图进行上采样,然后是将特征通道数量减半的2x2卷积(“上卷积”),与收缩路径中相应裁剪的特征图的连接,以及两个3x3卷积,每个后跟一个ReLU。由于边界像素的丢失,裁剪是必要的每个卷积。在最后一层,使用1x1卷积将每个64个分量特征向量映射到所需数量的类。该网络总共有23个卷积层。

        为了允许输出分割图的无缝平铺(参见图 2),重要的是选择输入平铺大小,以便将所有2x2最大池化操作应用于具有偶数x和y大小的层。

四、训练

        输入图像及其对应的分割图用于通过Caffe的随机梯度下降实现来训练网络。由于未填充的卷积,输出图像比输入图像小一个恒定的边界宽度。为了最大限度地减少开销并最大限度地利用GPU内存,我们倾向于使用大输入图块而不是大批量大小,从而将批量减少为单个图像。因此,我们使用高动量(0.99),以便大量先前看到的训练样本确定当前优化步骤中的更新。

        能量函数是通过最终特征图上的像素级soft-max结合交叉熵损失函数来计算的。soft-max 定义为p_k(x) = exp(a_k(x)) /\sum_{k_0=1}^{K} exp(a{k}' (x))其中a_k(x)表示特征通道k在像素位置的激活x\in \Omega\Omega \subset Z^2。K是类的数量,p_k(x)是近似的最大函数。即对于具有最大激活a_k(x) 的 k,p_k(x) \approx 1 和对于所有其他 k 的p_k(x) \approx 0。然后交叉熵在每个位置惩罚p_{\varrho (x)}(x) 与 1 的偏差,使用 其中\varrho : \Omega \rightarrow \left. 1......k \right \}是每个像素的真实标签,w: \Omega \rightarrow R是我们引入的权重图,以使某些像素在训练中更加重要。

        我们预先计算每个地面实况分割的权重图,以补偿训练数据集中某个类别的像素的不同频率,并强制网络学习我们在接触单元之间引入的小分离边界(见图3c-d)。

        使用形态学运算计算分离边界。 然后将权重图计算为

        其中W_c : \Omega \rightarrow \mathbb{R} 是平衡类频率的权重图,d_1 : \Omega \rightarrow \mathbb{R}表示到最近单元格和d2边界的距离d_2 : \Omega \rightarrow \mathbb{R}到第二近的单元格边界的距离。在我们的实验中,我们设置w_0 = 10\sigma \approx 5个像素。

        在具有许多卷积层和通过网络的不同路径的深度网络中,良好的权重初始化非常重要。否则,网络的某些部分可能会提供过多的激活,而其他部分则永远不会做出贡献。理想情况下,应该调整初始权重,使得网络中的每个特征图都具有近似单位方差。对于具有我们架构的网络(交替卷积和ReLU层),这可以通过从标准差为\sqrt{2/N}的高斯分布中提取初始权重来实现,其中N表示一个神经元的传入节点数。例如。对于前一层 N = 9 \cdot 64 = 5763x3卷积和64个特征通道。

1、数据扩充 

        当只有很少的训练样本可用时,数据增强对于教会网络所需的不变性和鲁棒性是必不可少的。在显微图像的情况下,我们主要需要移位和旋转不变性以及对变形和灰度值变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练带有很少注释图像的分割网络的关键概念。我们使用粗略的3x3网格上的随机位移矢量生成平滑变形。位移是从具有10像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每像素位移。收缩路径末端的dropout 层执行进一步的隐式数据增强。

五、实验

        我们演示了 u-net 在三个不同的分割任务中的应用。第一项任务是电子显微镜记录中神经元结构的分割。图 2 显示了数据集和我们获得的分割的示例。我们将完整结果作为补充材料提供。数据集由 2012 年 ISBI 开始的 EM 分割挑战提供,并且仍然对新的贡献开放。训练数据是一组 30 张图像(512x512 像素),来自果蝇初龄幼虫腹神经索 (VNC) 的串行切片透射电子显微镜。每个图像都带有一个相应的完全注释的地面真实分割图,用于细胞(白色)和膜(黑色)。测试集是公开的,但它的分割图是保密的。可以通过将预测的膜概率图发送给组织者来获得评估。评估是通过在 10 个不同级别对地图进行阈值处理并计算”warping error"、“Rand error" 和 ”pixel error" 来完成的。

        u-net(输入数据的 7 个旋转版本的平均值)无需任何进一步的预处理或后处理即可实现 0.0003529 的warping error(新的最佳分数,参见表 1)和 0.0382 的随机误差。

        表 1. EM 分割挑战排名(2015 年 3 月 6 日),按warping error排序。

        这比Ciresan等人的滑动窗口卷积网络结果要好得多。其最佳提交的warping误差为 0.000420,随机误差为 0.0504。 就rand误差而言,该数据集上唯一性能更好的算法使用高度数据集特定的后处理方法应用于 Ciresan 等人的概率图。

图 4. ISBI 小区跟踪挑战的结果。 (a) “PhC-U373" 数据集的输入图像的一部分。(b) 具有手动地面实况(黄色边框)的分割结果(青色掩码)(c) ”DIC-HeLa" 数据集的输入图像。 (d) 具有手动地面实况(黄色边框)的分割结果(随机彩色蒙版)。

         我们还将 u-net 应用于光学显微图像中的细胞分割任务。 此分割任务是 2014 年和 2015 年 ISBI 细胞跟踪挑战的一部分。第一个数据集 “PhC-U373" 包含通过相差显微镜记录的聚丙烯酰亚胺基底上的胶质母细胞瘤-星形细胞瘤 U373 细胞(参见图 4a、b 和补充材料 ). 它包含 35 个部分注释的训练图像。在这里,我们实现了 92% 的平均 IOU (\intersection over union"),这明显优于 83% 的第二好的算法(见表 2)。

        表 2. 2015 年 ISBI 小区跟踪挑战赛的分割结果 (IOU)。

六、结论

        u-net 架构在非常不同的生物医学分割应用程序上实现了非常好的性能。由于具有弹性变形的数据增强,它只需要很少的注释图像,并且在 NVidia Titan GPU (6 GB) 上的训练时间非常合理,仅为 10 小时。我们提供完整的基于 Caffe 的实现和训练有素的网络。我们确信 u-net 架构可以轻松应用于更多任务。

七、U-Net实例

机器学习笔记 - pytorch + unet + 数据科学碗竞赛 医学图像分割_坐望云起的博客-CSDN博客_pytorch unet 图像分割数据集来自Kaggle网站的2018数据科学碗竞赛。数据科学碗竞赛由 Booz Allen 和 Kaggle 主办的 Data Science Bowl 是全球首屈一指的社会公益竞赛数据科学。数据科学碗汇集了数据科学家、技术人员、领域专家和组织,以应对世界数据和技术的挑战。这是一个平台,人们可以通过它来驾驭他们的热情,释放他们的好奇心,并扩大他们的影响力,从而在全球范围内实现变革。https://skydance.blog.csdn.net/article/details/123282703机器学习笔记 - 使用Keras + Unet 进行图像分割_坐望云起的博客-CSDN博客_keras医学图像分割U-Net 是最初为医学影像分割而提出的一种语义分割技术。 它是较早的深度学习分割模型之一,U-Net 架构也用于许多 GAN 变体,例如 Pix2Pix 生成器。U-Net 在论文 U-Net: Convolutional Networks for Biomedical Image Segmentation 中进行了介绍。 模型架构相当简单:一个编码器(用于下采样)和一个解码器(用于上采样),带有跳跃连接。 如图 1 所示,它的形状像字母 U,因此得名 U-Net。https://skydance.blog.csdn.net/article/details/123222692机器学习笔记 - Keras + TensorFlow2.0 + Unet进行语义分割_坐望云起的博客-CSDN博客_tensorflow2.0 unet​u-net用于生物医学图像分割的卷积网络(MICCAI,2015年)在生物医学图像处理中,为图像中的每个细胞获取分类标签非常重要。 生物医学任务的最大挑战是成千上万张用于训练的图像不容易获得。论文(https://arxiv.org/abs/1505.04597)建立在完全卷积层的基础上,并对其进行了修改,以处理一些训练图像并产生更精确的分割。https://skydance.blog.csdn.net/article/details/115795171

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/125119565
今日推荐