[深度学习论文笔记]3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation 从稀疏标注学习密集体分割

3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
3D-U-Net:从稀疏标注学习密集体分割

Published: MICCAI 2016
论文:https://arxiv.org/abs/1606.06650
代码:https://github.com/lee-zq/3DUNet-Pytorch/

问题动机:
在生物医学数据分析中,3D数据是非常丰富的。用分割标签注释这些数据会很困难,因为只有二维切片可以在计算机屏幕上显示。因此,以一段一段的方式对大容量文件进行注释是非常繁琐的。它的效率也很低,因为相邻的切片显示几乎相同的信息。特别是对于基于学习的方法,需要大量的注释数据,完全注释3D体积不是一个有效的方法,以创建大型和丰富的训练数据集,将泛化良好。
即:3D数据对于生物医学数据分析来说显得非常冗余:
1、在三维层面上标注分割label比较困难,因为电脑屏幕上只能展示2D的切片
2、同时,逐层标注大量的切片又很繁琐,且相邻层的信息几乎是相同的
3、因此,完整注释3D数据并不是创建大而丰富的训练数据集的有效方法,尤其是对于需要大量标签数据的学习类算法

解决思路:
提出了一种深度网络,它可以学习生成密集的体积分割,但需要一些带标注的二维切片进行训练。如图所示,该网络可以以两种不同的方式使用:第一个应用案例目的是密集化一个稀疏注释的数据集;第二种是从多个稀疏注释的数据集中学习,以推广到新数据。
在这里插入图片描述
该网络基于之前的u-net架构,收缩编码器部分分析整幅图像,连续展开解码器部分生成全分辨率分割。 u-net是一个完全二维的体系结构,而本文提出的网络以三维体积为输入,进行相应的三维运算,特别是三维卷积、三维最大池化和三维上卷积层。
在许多生物医学应用中,只需要很少的图像就可以训练出相当好的泛化网络。这是因为每个图像已经包含了具有相应变化的重复结构。在3D图像中,这种效果更加明显,这样我们就可以只在两张体积图像上训练网络,从而推广到第三张。加权损失函数和特殊的数据增强使我们能够用少量人工标注的切片,即从标注稀疏的训练数据训练网络。

主要方法:
在这里插入图片描述
3D u-net体积分割的应用场景。(a)半自动分割:用户对每一个要分割的部分作注释,3d unet预测密集分割。(b)全自动分割:使用来自代表性训练集的带注释的切片训练网络,并可以在没有注释的数据集上运行。
Semi-automated segmentation:可以对只进行了稀疏标注的数据集进行密集标注,细化标注的结果
Fully-automated segmentation:对未标注的数据进行预测,生成一个分割后的数据集

网络结构:
在这里插入图片描述
蓝框表示特征图 通道的数量表示在每个特征图的上面

网络基于先前的U-Net架构,其包括用于分析整个图像的编码器部分和用于产生全分辨率分割的连续解码器部分:
和标准的u-net一样,它有一个编码和一个解码路径,每一个都有四个分辨率级别。在编码路径中,每一层包含两个3×3×3卷积,每个卷积后面跟着一个矫正线性单元(ReLu),然后是一个2×2×2最大池化,在每个维度上步幅为2。在解码路径中,每一层包含2 × 2 × 2的上卷积,在每个维度上步幅为2,然后是2个3 × 3 × 3的卷积,每个卷积之后是一个ReLu。从编码路径中相同分辨率的层的跳跃连接为解码路径提供了必要的高分辨率特征。在最后一层1×1×1卷积将输出通道的数量减少到标签的数量,在文章中是3个。该体系结构共有19069955个参数。
还在每个ReLU之前引入批量标准化(BN)(更快地收敛)。每个批次在训练过程中被归一化,其均值和标准差使用这些值更新全局统计信息。这之后是一个明确学习规模和偏差的层。在测试时,通过这些计算出的全局统计量和学习到的尺度和偏差进行归一化。
该体系结构的重要部分是加权的softmax损失函数,它允许我们对稀疏注释进行训练。将未标记的像素的权重设置为0,可以只从已标记的像素中学习,从而将其推广到整个体积。

总结:
编码部分和解码部分:
有一条编码路径和一条解码路径,每一条都有4个分辨率级别
编码部分每个层包含两个3×3×3卷积,卷积层后使用BN+ReLU激活函数,然后加上2×2×2 max pooling,stride为2。
解码部分,每一层都有一个2x2x2的上卷积操作,stride为2,紧接着是2个3x3x3的卷积和BN+ReLU激活函数。
和2D-UNet相似的shortcut连接,将编码路径中相同分辨率的层传递到解码路径,为解码层提供高分辨率的特征。
在最后一层中,1×1×1卷积将输出通道数减少到标签数,并使用Softmax作为损失函数。
3D-UNet结构共有19069955个参数
输入为3通道的132×132×116 输出的大小为44×44×28

一个重要的部分是加权softmax损失函数,使得网络可以使用稀疏注释的数据进行训练。
将未标记的像素的权重设置为零,使得网络可以仅从有标记的像素中学习,并推广到整个立体数据。

主要结果:
数据集:
非洲爪蟾肾脏的共焦显微镜数据集(经过一些特殊的化学标记)

实验
1、半自动分割
对于半自动分割,假设用户需要对少量的体积图像进行完全分割,并且没有事先分割。该网络允许用户从每个体积中标注几个切片,并让网络创建密集的体积分割。
为了进行定性评估,在所有三个稀疏注释的样本上训练网络。下图显示了第三个示例的分割结果。该网络可以从少量标注的切片中找到完整的三维体分割,省去了专家对全体标注的麻烦。
在这里插入图片描述
(a) 第三个非洲爪蟾肾脏共聚焦记录。(b)对提出的三维u-net进行批归一化后得到密集分割。

为了评估半自动化设置中的定量性能,统一地将所有3个样本中的所有77个手动注释的切片划分为3个子集,并进行了3倍交叉验证(包括批量标准化和非批量标准化)。为此,删除了测试片,让它们保持未标记。这模拟了用户提供更稀疏注释的应用程序。为了测量使用全3D环境的增益,将结果与纯2D实现进行比较,纯2D实现将所有标记的切片视为独立的图像。
实验结果如表所示。联合上的交集(IoU)被用作精度度量,以比较超出真实切片与预测的3D体积。结果表明,作者的方法已经能够从很少的注释切片归纳出非常准确的3D分割。
在这里插入图片描述
此外,还分析了注释片的数量对网络性能的影响。为此,模拟了一个样本半自动化分割。一开始在每个正交方向上使用1个注释切片,并逐渐增加注释切片的数量。在下表中报告了每个样本(S1、S2和S3)的高性能增益,以及每几个额外的真实标签(“GT”)切片。这些结果来自经过批处理标准化训练10小时的网络。为了测试,使用了这个实验中没有使用过的切片。
在这里插入图片描述
全自动分割:
完全自动化的分割设置假设用户想要分割大量的图像记录在一个可比的设置。我们进一步假设可以组装一个有代表性的训练数据集。为了估计这个设置的性能,作者在两个(部分注释)肾脏体积上训练,并使用训练的网络分割第三体积。报告所有3种可能的训练和测试卷组合的结果。在这个实验中,BN也改善了结果,除了在第三种情况下,BN起反作用。作者认为,数据集的巨大差异是造成这种影响的原因。全自动分割的典型用例将工作在更大的样本规模,同样数量的稀疏标签可以很容易地分布在更多的数据集,以获得更有代表性的训练数据集。
全自动分割(IoU)交叉验证结果:
在这里插入图片描述
结果:
引入了一种端到端学习方法,半自动和全自动地从稀疏标注中分割出三维体。它为非洲爪蟾肾脏的高度可变结构提供了一个精确的分割。在三次交叉验证实验中,实现了半自动设置的平均dice分数为0.863。在一个完全自动化的设置中,演示了从3D架构到等价的2D实现的性能增益。网络是从头开始训练的,它没有为这个应用程序以任何方式进行优化。期望它将适用于许多其他生物医学体积分割任务。

总结:
介绍了一种从稀疏标注的三维图像中学习的体分割网络。概述了这种方法的两个有吸引力的用例:(1)在半自动分割中,用户注释要分割的卷中的一些切片。该网络从这些稀疏注释中学习,并提供密集的三维分割。(2) 在全自动分割中,假设存在一个具有代表性的、稀疏注释的训练集。在这个数据集上训练,网络密集地分割新的三维图像。网络扩展了u-net结构,将所有的2D操作替换为3D操作。该实现在训练过程中执行动态弹性形变以实现有效的数据扩充。它是从头开始端到端训练的,即不需要预先训练的网络。在一个复杂的、高度可变的三维结构非洲爪蟾肾脏上测试了该方法的性能,并在两个用例中都取得了良好的结果。

注:
3D-UNet的两个特点和优势:
只需要用2D标注数据进行训练,就可以进行3D数据分割
(1)在半自动设置中,用户注释要分割的体积中的某些切片。网络从这些稀疏注释中学习并提供密集的3D分割。
(2)在全自动设置中,假设存在代表性的,稀疏注释的训练集。在此数据集上进行训练,网络可以密集地分割新的体积图像。

通过将所有2D操作替换为3D操作,网络扩展了先前的U-Net体系结构。该实现执行实时弹性变形,以在训练期间进行有效的数据增强。
网络在复杂的,高度可变的3D结构(非洲爪蟾肾脏)上测试了性能,并在两种使用情况下均取得了较好的结果。

在很多的医学影像应用中,很少的训练数据就可以产生很泛化性很优秀的结果:
这是因为每个图像已经包含了具有相应变化的重复结构
在3D数据中,这种影响更加明显,甚至我们只需要在两个3D图像上进行训练就可以泛化到第三个上
加权损失函数和有针对性的数据增强使我们能够仅使用少量的手动标注切片来训练网络,即,使用稀疏注释的数据训练

Guess you like

Origin blog.csdn.net/weixin_49627776/article/details/116376628