论文阅读——U-NetPlus: A Modified Encoder-Decoder UNet Architecture for Semantic and Instance Segmentation

论文阅读之改进UNet的语义分割和实例分割网络用于辅助微创手术
U-NetPlus: A Modified Encoder-Decoder U-Net Architecture for Semantic and Instance Segmentation of Surgical Instrument

摘要:

微创手术由于难以追踪手术设备所在视野限制了医生灵活操作,而基于深度学习的语义分割框架对视频进行分割可用于辅助手术。本文的UNet+对原始的UNet编解码网络进行了改进,编码部分引入了预训练网络,解码部分使用基于最近邻的上采样操作代替转置卷积。最终在医学影像视频分析挑战(MICCAI 2017 EndoVis Challenge)中完成了语义分割和实例分割,获得了很大的提升。

Section I Introduction

微创手术:

与传统大创口的外科手术相比,借助腹腔镜的微创手术由于感染风险低,住院时间短等优点备受青睐。那么在内窥镜视野中追踪手术器械就十分重要,但也面临一系列困难,如遮挡、光线变化等。


分割网络:

另一方面,虽然借助DNN的分割网络已成功应用于街景、自动驾驶等,但要应用于临床还需进一步提升分割精度和准确率,即使微小的误差也要避免。难以获取大量医学图像也限制了分割网络的临床应用,目前主要通过切patch、数据增强、迁移学习等解决数据量的问题。

外科手术领域的多类别分割于2018年首次提出,也是基于传统UNet的编解码网络,但并非是完成44输入到1像素输出的映射,而是完成从1像素输入到44像素输出的映射。这一模型首先大大增加了参数量、也容易在反卷积时导致不均匀重叠(uneven overlap)问题。

 
因此本文用使用BN+预训练的VGG-11和VGG-16网络替代原始UNet的编码部分用以加快模型收敛;用最近邻插值替代解码部分的转置卷积,用以去除转置卷积引入的伪影、减少参数量等问题。并将这一模型用于手术中的实例分割。

# Section II UNetPlus

Part A
 UNetPlus

整体框架如Fig1所示,也是基于编解码的结构产生像素级的分割结果,并且以concatenate方式完成编解码网络之间的skip connection,用以防止梯度消失等问题。
通常训练过程中会随机初始化权重,但由于医学图像数量有限很容易导致过拟合,因此常借助迁移学习来初始化网络参数。因此本文借助在ImageNet预训练好的VGG-11/VGG-16作为特征提取网络。

比如VGG-11:包含7个使用3*3kernel的卷积层,in_channel=64,out_channel=512,并且在每一层卷积后加入BN层。
UNetPlus
下采样过程中会减少特征大小,增多特征图谱的数量;上采样过程与此相反,通过不断减少feature map数量,增大特征尺寸最终获得像素级的分割图谱;在上采样过程中为了获得高分辨率的分割结果,本文使用了基于最近邻的插值法,每一个block中都会设置搜索的stride和kernel size.
其他细节:
数据集:医学影像视频分析挑战(MICCAI 2017
Endoscopic Vision Challenge)

数据增强:借助albumentations library库完成仿射变换和弹性变换
实验基于Pytorch
,首先对video中不需要的黑边进行裁剪,随后进行归一化;使用Adam优化器训练100epochs
评价指标
IoU(Jaccard Index)和Dice系数。

Section III实验结果

Part A 定量分析


首先将本文的UNetPlus与其他网络(UNet,UNet+NN,提拉米苏等)的二分类分割结果、多类别分割结果(shaft, wrist, and claspers)进行对比,可以看到使用NN的UNet结果就已经比原始UNet获得了提升,而本文的UNetPlus做二分类时收敛的更快,IoU提升了10%,Dice提升了5%;做多类别分割时超越了最佳的提拉米苏模型的性能。
在这里插入图片描述
Part B定性分析


由Fig4可以看出原始UNet、提拉米苏等都存在误分割的情况,以多类别分割为例,UNet无法正确分割器械柄和头,提拉米苏的分割质量也没有UNetPlus效果好。


Fig 4Part C 注意力的可视化



为了探究UNetPlus性能提升的原因,本文可视化了显著性热图,比如提来米苏网络由于使用的预训练网络,比UNet+NN具有更好的关注效果,而UNetPlus可以看到对镊子头部具有最佳的注意效果。



在这里插入图片描述







# Section IV Conclusions
本文提出的UNetPlus借助了预训练的编码网络和基于最近邻插值的解码网络,提升了UNet的分割效果,非常适合微创手术中对器械的追踪从而辅助手术。
总结就是UNet中encoder用预训练的VGG替换;decoder中转置卷积替换为NN最近邻插值。

猜你喜欢

转载自blog.csdn.net/qq_37151108/article/details/105979763