论文阅读:U-Net: Convolutional Networks for Biomedical Image Segmentation

在这里插入图片描述
论文地址:https://arxiv.org/pdf/1505.04597.pdf

人们普遍认为,成功的深度网络训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,它依赖于稳健的数据增强方法来更有效地使用标注样本。该体系结构由一个捕获上下文的收缩路径和能够实现精确定位的对称扩展路径组成。我们证明,这种网络可以从很少的图像中端到端训练,并且在电子显微镜堆栈中神经元结构分割的ISBI挑战上优于先前的最佳方法(滑动窗口卷积网络)。使用在透射光显微镜图像(相位对比度和DIC)上训练的相同网络,我们在这些类别中大大赢得了2015年的ISBI细胞跟踪挑战。此外,这个网络的速度也很快。在最近的GPU上,512x512图像的分割只需要不到一秒。完整的实现(基于Caffe)和训练过的网络可以在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.上获得

1、介绍

在过去的两年里,深度卷积网络在许多视觉识别任务中都表现出色,例如[7,3]。虽然卷积网络已经存在了很久[8],但由于可用训练集的大小和所考虑的网络的大小,它们的成功受到了限制。Krizhevsky等人[7]的突破是由于在具有100万张训练图像的ImageNet数据集上对一个具有8层和数百万个参数的大型网络进行监督训练。从那时起,更大、更深层次的网络可以被训练[12]。

卷积网络的典型用途是在分类任务上,其中对图像的输出是一个单一的类标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,所需的输出应该包括位置,即应该为每个像素分配一个类标签。此外,成千上万的训练图像在生物医学任务中通常是无法获得的。因此,Ciresan等人[1]在滑动窗口设置中训练一个网络,通过在该像素周围提供一个局部区域(补丁)来预测每个输入像素的类标签。首先,这个网络可以进行定位。其次,在斑块方面的训练数据远远大于训练图像的数量。由此产生的网络在2012年的ISBI大会上以巨大的优势赢得了EM分割挑战。

显然,Ciresan等人的[1]的策略有两个缺点。首先,它非常慢,因为网络必须为每个补丁单独运行,而且由于重叠的补丁,会有很多冗余。其次,在定位精度和上下文的使用之间存在一种权衡。较大的补丁需要更多的最大池化层,从而降低了定位精度,而较小的补丁只允许网络看到很少的上下文。最近的方法[11,4]提出了一种考虑多层特征的分类器输出。良好的定位和上下文的使用同时也是可能的。

在本文中,我们建立了一个更优雅的体系结构,即所谓的“全卷积网络”[9]。我们修改和扩展了这种体系结构,使它可以在很少的训练图像下工作,并产生更精确的分割;参见图1。[9]的主要思想是通过连续的层来补充通常的收缩网络,其中池化运营商被上采样运营商所取代。因此,这些层增加了输出的分辨率。为了进行定位,将收缩路径上的高分辨率特征与上采样输出相结合。然后,一个连续的卷积层可以学会根据这些组合的信息给出一个更精确的输出。
在这里插入图片描述
在我们的体系结构中,一个重要的修改是,在上采样部分,我们也有大量的特征通道,这允许网络将上下文信息传播到更高分辨率的层。因此,膨胀路径与收缩路径或多或少是对称的,并产生一个u形结构。该网络没有任何全连接层,只使用每个卷积,即分割图只包含像素,完整的上下文在输入图像是可用的。该策略允许通过重叠滑动策略对任意大的图像进行无缝分割(见图2)。为了预测图像边界区域中的像素,通过对边界进行镜像操作来推断缺失的上下文(细胞在边缘时邻域信息不完整)。这种扩充策略对于将网络应用于大型图像很重要,否则分辨率就会受到GPU内存的限制(因为图像不能进行切片【会破坏细胞结构的邻域信息】)。
在这里插入图片描述
对于我们的任务,可用的训练数据很少,我们通过对可用的训练图像应用弹性变形来使用过度的数据增强。这允许网络学习对这种变形的不变性,而不需要在带注释的图像语料库中看到这些转换。这在生物医学分割中尤为重要,因为变形曾经是组织中最常见的变化,而真实的变形可以被有效地模拟出来。多索维茨基等人的[2]在无监督特征学习的范围中展示了数据增强对学习不变性的价值。

许多细胞分割任务中的另一个挑战是分离同一类的接触对象;参见图3。为此,我们建议使用加权损失,即接触单元之间的分离背景标签在损失函数中获得了很大的权重。
在这里插入图片描述
所得到的网络适用于各种生物医学分割问题。在本文中,我们展示了EM stacks中神经元结构分割的结果(在ISBI 2012开始),在那里我们超过了Ciresan等人[1]的网络。此外,我们还展示了来自2015年ISBI细胞跟踪挑战的光显微镜图像中的细胞分割结果。在这里,我们在两个最具挑战性的二维透射光数据集上取得了很大的优势。

2、网络结构

网络架构如图1所示。它由收缩路径(左侧)和膨胀路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它包括重复应用两个3x3卷积(无填充卷积),每个卷积随后是一个校正线性单元(ReLU)和一个2x2最大池化操作,步幅为2用于下采样。在每一个降采样步骤中,我们都会将特征通道的数量增加一倍。扩展路径中的每一步都包括特征图的上采样,然后是2x2卷积(“up-convolution”),将特征通道的数量减半,与收缩路径中相应裁剪的特征图的连接,以及两个3x3卷积,每个卷积都是一个ReLU。由于在每次卷积中都丢失边界像素,裁剪是必要的。在最后一层,使用1x1的卷积将每个64个分量的特征向量映射到所需的类的数量。该网络总共有23个卷积层。

为了允许输出分割映射的无缝平铺(见图2),选择输入平铺大小很重要,这样所有2x2最大池操作都应用于x和y大小的层。

3、训练

利用输入的图像及其对应的分割图,利用Caffe[6]的随机梯度下降实现来训练网络。由于未填充的卷积,输出图像比输入图像小了一个恒定的边界宽度。为了最小化开销并最大限度地利用GPU内存,我们支持大型输入块而不是大批处理大小,因此将批处理减少为单个图像。因此,我们使用了一个高动量(0.99),这样,之前看到的大量训练样本就决定了当前优化步骤中的更新。

损失函数是由交叉熵损失函数在最终特征图上的像素级的softmax结合交叉熵损失(cross entropy loss)函数计算的。交叉熵使预测正确的pixel loss值较小,预测错误的pixel loss值较大。同时,按照样本的数量对交叉熵损失进行加权。

我们预先计算每个真实类别的权重,以补偿训练数据集中某一类像素的频率差异,并迫使网络学习不同接触细胞的小分离边界(见图3c和d)。

分离边界采用形态学操作进行计算。权重图计算为:
w ( x ) = w c ( x ) + w 0 ∗ e x p ( − ( d 1 ( x ) − d 2 ( x ) ) 2 2 σ 2 ) w(x)=w_c(x)+w_0*exp(-\frac{(d_1(x)-d_2(x))^2}{2σ^2}) w(x)=wc(x)+w0exp(2σ2(d1(x)d2(x))2)

其中, w c : Ω → R w_c:Ω→R wcΩR是平衡类频率的权重映射, d 1 : Ω → R d_1:Ω→R d1ΩR表示到最近单元格边界的距离, d 2 : Ω → R d_2:Ω→R d2ΩR表示到第二个最近单元格边界的距离。在我们的实验中,我们设置了 w 0 = 10 w_0=10 w0=10 σ ≈ 5 σ≈5 σ5像素。

在具有许多卷积层和不同网络路径的深度网络中,良好的权值初始化是非常重要的。否则,网络的部分可能会给予过度的激活,而其他部分永远没有贡献。理想情况下,应调整初始权值,使网络中的每个特征图具有近似的单位方差。对于具有我们的架构的网络(交替卷积和ReLU层)来说,这可以通过从一个标准差为 2 / N \sqrt{2/N} 2/N 的高斯分布中提取初始权值来实现,其中 N N N表示一个神经元[5]的输入节点的数量。例如,对于一个kernel为3x3,通道为64的卷积层,N=9·64=576。

3.1 数据增强

当只有少量的训练样本可用时,数据增强对于教会网络所需的不变性和鲁棒性至关重要。在显微镜图像中,我们主要需要移位和旋转不变性,以及对变形和灰度值变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练一个很少标注图像的分割网络的关键概念。我们在一个粗糙的3乘3网格上使用随机位移向量生成平滑变形。这些位移是从一个具有10个像素标准差的高斯分布中采样的。然后使用双边插值法计算每像素的位移。在收缩路径的末端的退出层执行进一步的隐式数据增强。

4、 实验

我们演示了u-net在三种不同的分割任务中的应用。第一个任务是在电子显微镜记录中分割神经元结构。图2显示了数据集和我们获得的分割的一个示例。我们提供完整的结果作为补充资料。该数据集由EM分割挑战[14]提供,该挑战于2012年ISBI启动,目前仍有新的贡献。训练数据是一组30张图像(512x512像素),来自果蝇一龄幼虫腹神经索(VNC)的连续切片透射电镜(VNC)。每张图像都带有相应的细胞(白色)和细胞膜(黑色)的地面真实分割图。这个测试集是公开的,但它的分割地图是保密的。通过将预测的膜概率图发送给组织者,可以获得评估。评估是通过在10个不同的水平上阈值化的图,并计算 “warping error”, “Rand error” 和“pixel error”[14]。

U-Net(平均超过7个旋转版本)在没有任何进一步的预处理或后处理的情况下实现了warping error 0.0003529(新的最佳分数,见表1),Rand error为0.0382。这明显优于Ciresan等人的[1]的滑动窗口卷积网络结果,其最佳提交的warping error为0.000420,Rand error误差为0.0504。 在Rand error方面,该数据集上唯一性能更好的算法使用高度数据集特定的后处理方法1,应用于Ciresan等人[1]的概率图。
在这里插入图片描述
我们还将U-Net应用于光显微镜图像中的细胞分割任务。该分段任务是2014年和2015年[10,13]的ISBI细胞跟踪挑战的一部分。第一个数据集“PhC-U373”2包含胶质母细胞瘤-星形细胞瘤U373细胞,通过聚丙烯胺显微镜记录(见图4a,b和Supp。材料)。它包含35张部分注释的训练图像。在这里,我们实现了平均IOU(“联合上的交集”)为92%,这明显优于第二优算法的83%(见表2)。第二个数据集“DIC-HeLa”3是由差分干涉对比(DIC)显微镜记录的平板玻璃上的HeLa细胞(见图3,图4c,d和Supp。材料)。它包含20个部分注释的训练图像。在这里,我们的平均IOU为77.5%,明显优于第二优算法的46%。
在这里插入图片描述在这里插入图片描述

5、 总结

u-net架构在非常不同的生物医学分割应用上取得了非常好的性能。由于弹性删除器的数据增强,它只需要很少的注释图像,并且在NVidia的TitanGPU(6GB)上只有非常合理的10个训练时间小时。我们提供了完整的基于Caffe[6]的实现和训练过的网络4。我们确信u-net架构可以很容易地应用于更多的任务。

重温经典论文,博主的心得是:数据增强很重要。unet里用到的数据增强有:1、patch边缘镜像填充;2、弹性变化增强数据。

猜你喜欢

转载自blog.csdn.net/a486259/article/details/125804672