Unet论文详解U-Net:Convolutional Networks for Biomedical Image Segmentation

背景:Unet结构在分割,重建以及GAN等网络之中被广泛采用,非常经典。网络于20155月提出,在后续图像分割领域广泛运用。

论文地址  https://arxiv.org/abs/1505.04597

目录

一、概览

1.1 全新方法

1.2 分割准确

1.3 速度快

二、背景

2.1 图像定位网络

2.2 基于滑窗的分割

2.3 本文方法

三、方法

3.1 网络结构

3.2 训练过程

3.3 数据增强

四、实验

4.1 评价指标

4.2 实验性能

五、结论及个人总结

六、后续相关论文及链接

R2U-Net   ,2018 CVPR

UNet++     ,2018 CVPR

Attention U-Net      ,2018 CVPR

nnU-Net      ,2019 CVPR


一、概览

1.1 全新方法

深度网络训练之中需要大量的有标样本,Unet作者提供了一种新的训练方法,可以更有效的运用相应的有标样本。

  • Contracting path:提取语义信息
  • Symmetric expanding path:确保精确定位

作者提出了一种全新的方法,全卷积网络fully convolutional network,使网络即使通过少量的训练图片也可以进行更精确的分割。网络的主要想法是通过successive layer来实现,即把pooling.

1.2 分割准确

作者通过实验验证了,网络即使通过少量样本的训练也可以在ISBI分割挑战上超越当时最好的方法(滑窗卷积网络)。

1.3 速度快

分割一个512*512大小的图片,在单显卡上只需要1秒。

二、背景

2.1 图像定位网络

近两年(2014-2015年),深度网络在一些视觉识别的任务中被广泛应用。

  •  Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
  •  Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)

但是深度网络受限于可得到训练集的大小及数量,更大更深的网络以及更大的数据集可以更好的提升性能。

  • Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)

但是更经典的运用,不仅仅受限于分类问题,也需要对目标进行定位。例如定位到每个像素点上的类别。同时,大量的训练样本(thoustands of)往往是不可得的。

2.2 基于滑窗的分割

滑窗法提出被用于判定每个pixel属于哪个class label

  • Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp.2852–2860 (2012)

网络直接将滑窗的patchs送入,首先可以解决定位的问题,其次可以将训练数据数量可以远远大于训练集的图像的数量。

缺点:

  • 网络必须分开的对每个取窗的patch进行训练,patches之间有大量的重叠则会出现重复训练
  • 定位精确度与context之间有trade-off。大的patch需要更大的pooilng层,使得定位误差增大;同时,小的patch使得网络提取出更少的语义信息。

2.3 本文方法

创建一个全卷积网络,fully convolution network来用于提取出相应的特征。网络只需要少量的训练数据并且可以有更高的分割准确率。

  • 额外的引入了successive layer,使得pooing操作之后会跟上采样操作。
  • 高分辨率的feature可以从contractin path来与相应的上采样结合。Successive convolution层可以更好的集成更加精确的信息。
  • 上采样部分,有更多的feature channel,可以让网络有更高的分辨率。
  • 因此,expansive pathcontracting path是近似对称的关系。使得网络是一个U型的结构。
  • 网络没有全连接层,只有相应的卷积层。
  • 网络的最终的分割图像是与输入像素相同的图像。运用了overlap-title策略,使得在任意图像分类上都达到无缝分类。
  • 对图片进行了镜像,使得图像边缘也能很好的分割。并且使得图片大小不再受限制与GPU内存。

三、方法

3.1 网络结构

网络左边为contracting path,右边为expansive path。

  • Contracting path为常规的3×3卷积结构,与ReLU,还有2×2max pooling。每次下采样,都将featuremapchannel变为之前的两倍。
  • Expansive path为上采样过程,每次都是2*2的上采样卷积过程,并且将相应的feature channel减少为之前的一半。
  • 与上采样对应的下采样过程中的feature会被连接。
  • cropping过程是必需的,因为每次卷积过程边缘的像素点都会损失。
  • 最终的网络有23层的卷积层。

3.2 训练过程

运用带冲量的随机梯度下降算法(SGD)来对网络进行训练。运用较大的冲量momentum=0.99 ,这样网络训练时候 a large number of the previously seen training samples determine the update in the current optimization step

To minimize the overhead and make maximum use of the GPU memory, we favor large input tiles over a large batch size and hence reduce the batch to a single image.

Enery function

最终的energy function被定义为 pixel-wise soft-max over the final feature map,同时加了一个交叉熵函数。

其中,soft-max定义为:

  • 表示在feature channel k的激活。
  • k表示feature channel的的第k个。
  • x表示像素点,Z表示patch的大小
  • K表示类别的个数
  • 近似于maximum-function
  • 例如果 k that has the maximum activation ak(x)
  • 对于其他的k,则

图像最终在每个位置上的softmax和交叉熵结合为:

  • 对于每个像素来说,标签为:
  • Weight map为:
  • weight map在实验前阶段通过计算获得:

  • w(x)用于平衡不同类别出现的频率
  • 表示细胞与最近的边界的距离
  • 表示细胞与第二近的边界的距离。

3.3 数据增强

这部分虽然论文中提及较少,但是数据增强对于网络来讲非常重要,并且文中提到了非常实用的数据增强的方法。

因为医学样本较少,但是仍然需要网络具有平移与旋转不变性,并且对形变和灰度变化鲁棒。

  • 使用随机位移矢量在粗糙的3*3网格上(random displacement vectors on a coarse 3 by 3 grid)产生平滑形变(smooth deformations)。
  • 位移是从10像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每个像素的位移。
  • 在contracting path的末尾采用drop-out 层更进一步增加数据。

四、实验

4.1 评价指标

作者在三个目标分割数据集上进行了相应的实验。并且有三种评价指标:

Pixel error

预测错误的像素点的个数除以总像素个数。对于二进制的labels,欧式距离和汉明距离结果相同。优点:简单 缺点:过分敏感,可能已经到达了较好的分割效果,却有很大的pixel error。

warping error

是一种segmention metric,基于数字拓扑领域概念,比较边界标签的另一种指标。当pixel error很大当分割效果更好可以引入warping error,主要用来衡量分割目标的拓扑形状效果。

主要来衡量分割目标的拓扑形状效果。给定L的pixel error,候选标注T(预测值)和参考标注L(实际值)的warping error可以认为是L和对于T最好的L的汉明距离。

Rand error

两个数据聚类的相似性评价方法,改造之后用来衡量分割性能,因为分割可以看作是聚成类的像素。

给定一张图片S,有n个像素点,同时有两个分割X和Y

    a:两个分割中同属于一个聚类的像素点数量

    b:两个分割中都不属于一个聚类的像素点数量

4.2 实验性能

五、结论及个人总结

Unet是分割领域最经典的论文,基本上SOTA的模型都在此基础上进行更改,非常重要。

并且在数据增扩阶段的工作也同等重要,就是基于几何形变的数据增扩。

六、后续相关论文及链接

R2U-Net   ,2018 CVPR

Md Zahangir Alom, Mahmudul Hasan, Chris Yakopcic, Tarek M. Taha, Vijayan K. Asari

Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1802.06955

UNet++     ,2018 CVPR

Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang

UNet++: A Nested U-Net Architecture for Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1807.10165

Attention U-Net      ,2018 CVPR

Ozan Oktay, Jo Schlemper, Loic Le Folgoc, Matthew Lee

Attention U-Net: Learning Where to Look for the Pancreas

论文地址:

https://arxiv.org/abs/1804.03999

nnU-Net      ,2019 CVPR

Fabian Isensee, Jens Petersen, Simon A. A. Kohl, Paul F. Jäger, Klaus H. Maier-Hein

nnU-Net: Breaking the Spell on Successful Medical Image Segmentation

论文地址:

https://arxiv.org/abs/1904.08128v1

发布了210 篇原创文章 · 获赞 584 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/weixin_36474809/article/details/87931260