论文阅读之改进UNet的语义分割和实例分割网络用于辅助微创手术
U-NetPlus: A Modified Encoder-Decoder U-Net Architecture for Semantic and Instance Segmentation of Surgical Instrument

摘要：

微创手术由于难以追踪手术设备所在视野限制了医生灵活操作，而基于深度学习的语义分割框架对视频进行分割可用于辅助手术。本文的UNet+对原始的UNet编解码网络进行了改进，编码部分引入了预训练网络，解码部分使用基于最近邻的上采样操作代替转置卷积。最终在医学影像视频分析挑战（MICCAI 2017 EndoVis Challenge）中完成了语义分割和实例分割，获得了很大的提升。

Section I Introduction

微创手术：
 与传统大创口的外科手术相比，借助腹腔镜的微创手术由于感染风险低，住院时间短等优点备受青睐。那么在内窥镜视野中追踪手术器械就十分重要，但也面临一系列困难，如遮挡、光线变化等。 
 分割网络：
 另一方面，虽然借助DNN的分割网络已成功应用于街景、自动驾驶等，但要应用于临床还需进一步提升分割精度和准确率，即使微小的误差也要避免。难以获取大量医学图像也限制了分割网络的临床应用，目前主要通过切patch、数据增强、迁移学习等解决数据量的问题。
 外科手术领域的多类别分割于2018年首次提出，也是基于传统UNet的编解码网络，但并非是完成44输入到1像素输出的映射，而是完成从1像素输入到44像素输出的映射。这一模型首先大大增加了参数量、也容易在反卷积时导致不均匀重叠（uneven overlap）问题。
   因此本文用使用BN+预训练的VGG-11和VGG-16网络替代原始UNet的编码部分用以加快模型收敛；用最近邻插值替代解码部分的转置卷积，用以去除转置卷积引入的伪影、减少参数量等问题。并将这一模型用于手术中的实例分割。
 # Section II UNetPlus 
 Part A  UNetPlus
 整体框架如Fig1所示，也是基于编解码的结构产生像素级的分割结果，并且以concatenate方式完成编解码网络之间的skip connection，用以防止梯度消失等问题。 通常训练过程中会随机初始化权重，但由于医学图像数量有限很容易导致过拟合，因此常借助迁移学习来初始化网络参数。因此本文借助在ImageNet预训练好的VGG-11/VGG-16作为特征提取网络。
 比如VGG-11:包含7个使用3*3kernel的卷积层，in_channel=64，out_channel=512,并且在每一层卷积后加入BN层。
UNetPlus
下采样过程中会减少特征大小，增多特征图谱的数量；上采样过程与此相反，通过不断减少feature map数量，增大特征尺寸最终获得像素级的分割图谱；在上采样过程中为了获得高分辨率的分割结果，本文使用了基于最近邻的插值法，每一个block中都会设置搜索的stride和kernel size.
其他细节：
数据集：医学影像视频分析挑战（MICCAI 2017 Endoscopic Vision Challenge） 
数据增强：借助albumentations library库完成仿射变换和弹性变换
实验基于Pytorch ，首先对video中不需要的黑边进行裁剪，随后进行归一化；使用Adam优化器训练100epochs 评价指标 IoU（Jaccard Index）和Dice系数。

Section III实验结果

Part A 定量分析 
 首先将本文的UNetPlus与其他网络（UNet，UNet+NN,提拉米苏等）的二分类分割结果、多类别分割结果（shaft, wrist, and claspers）进行对比，可以看到使用NN的UNet结果就已经比原始UNet获得了提升，而本文的UNetPlus做二分类时收敛的更快，IoU提升了10%,Dice提升了5%；做多类别分割时超越了最佳的提拉米苏模型的性能。
  在这里插入图片描述
 Part B定性分析
  由Fig4可以看出原始UNet、提拉米苏等都存在误分割的情况，以多类别分割为例，UNet无法正确分割器械柄和头，提拉米苏的分割质量也没有UNetPlus效果好。
   Fig 4 Part C 注意力的可视化
   为了探究UNetPlus性能提升的原因，本文可视化了显著性热图，比如提来米苏网络由于使用的预训练网络，比UNet+NN具有更好的关注效果，而UNetPlus可以看到对镊子头部具有最佳的注意效果。
    在这里插入图片描述
   
   # Section IV Conclusions
本文提出的UNetPlus借助了预训练的编码网络和基于最近邻插值的解码网络，提升了UNet的分割效果，非常适合微创手术中对器械的追踪从而辅助手术。
总结就是UNet中encoder用预训练的VGG替换；decoder中转置卷积替换为NN最近邻插值。

论文阅读——U-NetPlus: A Modified Encoder-Decoder UNet Architecture for Semantic and Instance Segmentation

摘要：

Section I Introduction

Section III实验结果

猜你喜欢