《U-Net: Convolutional Networks for Biomedical Image Segmentation》论文阅读

一、摘要

       人们普遍认为,成功的深层网络培训需要数千个带注释的培训样本。在本文中,我们提出了一种网络和培训策略,它依赖于

数据增强的强大使用来更有效地使用可用的带注释的样本。该体系结构由捕获上下文的收缩路径和支持精确本地化的对称扩展路

径组成。In this paper, we present a network and training strategy that relies on the strong  use of data augmentation to use the

available  annotated samples more   efficiently. The architecture consists of a contracting path to capture context and a symmetric   expanding path that enables precise localization.

然后说参加比赛,赢得了比赛,证明了效果比较好

二、引言

(这一部分主要:在过去卷积神经网络的限制——可用训练集和网络大小。然后说Krizocsky训练了一个大型网络。但是针对与医学图像无法获得大量的训练图像。Cesresan等人在滑动窗口设置中对网络进行训练,该模型的优点与缺点。终于提出了作者的方法,是基于FCN的修改与延申)

          在过去的两年中(文章是2015年),虽然卷积神经网络已经存在很长时间了,但受到可用训练集和所考虑的网络的的大

小,成功收到限制。Krizovsky等的突破是由于在ImageNet数据集上有一百万个训练图像,对一个具有8层和数百万参数的大型网

络进行监督训练。卷积网络的典型用途是分类任务,其中图像的输出是单个类别标签。然而,在许多视觉任务中,尤其是在生物

医学图像处理中,期望的输出应该包括定位,即,应该将类别标签分配给每个像素。而且,在生物医学任务中通常无法获得数以

千计的训练图像。       

          因此,Cesresan等人在滑动窗口设置中对网络进行了训练,预测每个像素的类标签,以提供围绕该像素的局部区域(patch)

作为输入。优点:首先,这个网络可以局部化。其次,补丁方面的训练数据远大于训练图像的数量。缺点:首先,它非常慢,因

为网络必须分别为每个补丁运行,并且由于补丁重叠而导致大量冗余。其次,在局部化准确性和内容的使用之间存在着权衡关

系。较大的patches需要更多的最大池化层来降低局部化的准确性,而较小的pathes则使网络只能看到很少的内容。

         在本文中,我们基于FCN的基础上建立一个更完美的一个结构,我们修改和扩展了这个体系结构,使它能够以很少的训练

图像工作,产生更精确的分割。主要思想是用连续层来补充通常的收缩网络,其中池化操作被上采样算子取代。因此,这些层提

高了输出的分辨率。为了定位,收缩路径中的高分辨率特征与上采样输出结合在一起。然后,连续卷积层可以学习根据这些信息

组装更精确的输出。

         我们的架构的一个重要修改是,在上采样部分,我们也有大量的特征通道,这使得网络能够将上下文信息传播到更高分辨率

的层。其结果是,扩展路径与收缩路径或多或少对称,并产生u形结构。该网络没有任何完全连接的层,只使用每个卷积的有效

部分,即分割映射只包含输入图像中可用的全部内容的像素。该策略允许通过重叠块策略对任意大的图像进行无缝分割(见图

2)。要预测图像边框区域中的像素,需要通过镜像输入映像来推断丢失的内容。

        对于我们的任务,可用的训练数据很少,我们通过对可用的训练图像施加弹性变形来进行过度的数据增强。这允许网络学习

这种变形的不变性,而无需在带注释的图像语料库中看到这些转换。这在生物医学分割中尤为重要,因为变形曾经是组织中最常

见的变化,可以有效地模拟真实变形。数据增强在学习不变性方面的价值已在dosovitskiy等人中得到了证明。[2]在无监督特征学

习的范围内。

        在许多细胞分割任务中的另一个挑战是分离同一类的触摸对象;参见图3.为此,我们建议使用加权损失,其中触摸细胞之间

的分离背景标签在损失函数中获得较大的权重..

三、网络结构

        网络体系结构图所示,它由收缩路径(左侧)和扩展路径(右侧)组成。收缩路径遵循卷积网络的典型结构。它包括重复应

用两个3x3卷积(非加量卷积),每个卷积后面是一个校正的线性单元(Relu)和一个2x2最大池操作,步长为2进行下采样。在

每个下采样步骤中,我们将特征通道的数量增加一倍。扩展路径中的每一步都包括一个特征映射的上采样,然后是一个2x2卷积

(上卷积),它将特征通道的数量减半,与收缩路径中相应裁剪的特征映射连接,以及两个3x3卷积,每个卷积后面跟着一个relu。

由于每个卷积中的边界像素的丢失,需要裁剪。在最后一层,使用1x1卷积来将每个64分量特征向量映射到所需数量的类。总共

该网络具有23个卷积层。为了允许输出分段映射的无缝拼接(请参见图2),重要的是选择输入块大小,以便将所有2x2max池操作

应用到具有均匀x和y大小的层。

四、训练

利用Caffe[6]的随机梯度下降实现,利用输入图像及其相应的分割映射对网络进行训练。由于非填充卷积,输出图像比输入图像小

一个恒定的边框宽度。为了最小化开销并最大限度地利用GPU内存,我们倾向于大输入块而不是大批处理大小,从而将批处理减

少为单个映像。因此,我们使用较高的动量(0.99),使得先前看到的大量训练样本决定当前优化步骤中的更新。

能量函数由最终特征图上的像素级极大值与交叉熵损失函数相结合计算。

我们预先计算每个真实分割的权重图,以补偿训练数据集中某一类像素的不同频率,并迫使网络学习我们在单元格之间引入的小分离边界。分离边界用形态运算计算。权重图计算为

        在具有多个卷积层和不同路径的深层网络中,良好的权值初始化是非常重要的。否则,网络的某些部分可能会提供过多的激

活、而其他部分则不会做出贡献。理想情况下,初始权重应该调整,使网络中的每个特征映射具有近似的单位方差。对于具有

我们的体系结构的网络(交替卷积和ReLU层),这可以通过从标准偏差的高斯分布中提取初始权值来实现,其中N表示一

个神经元的传入节点数。例如,对于前一层中的3x3卷积和64个特征信道,N=9·64=576。

        尤其是训练样本的随机弹性变形似乎是训练具有很少带注释图像的分割网络的关键概念。我们利用3个网格上的粗糙3上的随

机位移矢量来生成平滑变形。从具有10个像素标准偏差的高斯分布对位移进行采样。然后使用双三次插值计算每像素位移。收缩

路径末端的引出层执行其他隐式数据。

五、实验

六、总结

         U-Net体系结构在非常不同的生物医学分割应用中实现了非常好的性能。由于具有弹性变形的数据增强,它只需要非常少的

带注释的图像,并且在NVIDIATanGPU(6GB)上只需要10小时的合理的训练时间。我们提供了完整的CAFFE[6]的实施和培训的网

络。我们相信,可以轻松地将U-Net体系结构应用到更多的任务。

(记录成长,总结知识,及时回顾)


 

发布了443 篇原创文章 · 获赞 656 · 访问量 60万+

猜你喜欢

转载自blog.csdn.net/LiuJiuXiaoShiTou/article/details/102476123