Deep semi-supervised segmentation with weight-averaged consistency targets

Abstract:

近期提出的关于半监督学习的方法如Temporal Ensembling 和Mean Teacher,在分类任务上达到了目前最先进的结果。在本文的工作中,在分割任务上扩展了Mean Teacher的方法,利用一个公共的大的MRI数据集,在小数据的现实场景中提供改进。我们也设计了一个方法来解决使用传统数据增强测量来分割的问题。

2. Mean Teacher

数据集可以分为两个集合:包含标签的样本和标签,无标签的样本
但是,如果我们从未标记数据中获得的中可用的知识对的推理问题有用,那么很明显半监督学习可以在监督下得到改善。

Temporal Ensembling:讨论半监督学习的temporal ensembling network的概念,其中使用指数移动平均值(EMA)汇总多个先前网络评估的预测,对于与此目标不一致的预测具有惩罚项,是目前半监督学习中嘴先进的方法之一。
Mean Teacher作者通过使用Polyak平均来平均模型权重而不是标签预测来扩展Temporal Ensembling方法。描述的方法是一个学生/老师模型,其中将学生模型结构复制到教师模型中,然后根据以下内容将其权重更新为学生权重的指数移动平均值:

13234144-e9c23f428594b4a6.png

其中是一个平滑超参数,t是训练步骤,是模型的权重。学生的目标是通过一个复合的损失函数学习两个术语,一个是传统的分类损失,另一个用于强化预测与教室模型的一致性。学生和老师模型都通过来自Dropout,随机仿射变换,加性高斯噪声等的噪声来评估输入数据。

本篇工作中,扩展mean teacher技术用于半监督分割,这是第一次将mean teacher扩展到半监督分割任务。我们对任务和一致性使用不同的损失函数,并且还提出了一种新方法,用于解决当用于分割时由该技术引起的增强问题。对于一致性损失,我们使用像素级二维交叉损失熵

13234144-dae853cfc479f896.png

其中是学生模型的输出,是老师模型相同样本的输出预测,其中和是学生和老师的模型参数。一致性损失可以看作老师模型的一个像素级知识蒸馏,很重要的呀电视在一致性损失计算的中有标签的数据和无标签的数据都有贡献。我们使用二元交叉熵而不是MSE是因为二元交叉熵为分割任务模型性能提供了改进。
对于分割任务,我们使用Dice相似性系数作为损失函数,对不平衡不敏感,小的batch的DSC计算如下:
13234144-e7ac59aedc83438e.png

其中是第i 个输出,是对应的标签,对于分割任务,只有有标签的数据集对的计算有贡献。总的损失函数结合两个损失函数。
13234144-355ec21e010fd608.png

上图显示了提出的基于mean teacher技术的方法的几个部分。(1)数据增强过程,其中是数据增强参数,学生和老师模型使用不同的增强参数。(2)学生模型。(3)老师模型通过学生模型的EMA更新。(4)用于训练学生模型的一致性损失,这种一致性将根据教师的预测强制学生对标记和未标记数据的预测之间的一致性。(5) 传统的分割损失,其中监督信号被提供给学生模型以作为标记的样本。

2.1 分割数据增强

在分割任务中,数据增强十分重要,特别是医学图像领域,可获得的数据是有限的,变异性很高,并且平移等效性是可取的。传统的增强方法如仿射变换等,和像素级加性噪声相反,改变了输入数据的空间内容,例如,也可以在标签上应用完全相同的参数,以在空间上对齐输入和地面实况,两者都受像素损失的影响。这个房啊,在mean teacher训练框架中不可行。如果两个不同的增强导致空间错位,在学生和教室预测间的空间内容会在一致性损失中不匹配。
为了避免一致性损失中的错位,可以对学生和教师模型输入使用相同的参数化来应用这种变换。然而,这样不会利用可通过一致性损失引入的变换的更强不变性。 出于这个原因,我们提出了一种解决方案,以延迟的方式应用老师模型的变换。我们提出的方法是基于在模型前向传递之前仅对学生模型应用相同的增强过程,然后在教师模型预测中进行模型前向传递之后,使两个预测图对齐以进行一致性损失评估,同时仍然利用为学生和教师模型之间的增强引入更强的不变性。 这是可能的,因为我们仅对学生模型参数进行梯度的反向传播。

3 实验

3.1 MRI 脊髓灰质分割

数据集:该数据集由80名健康受试者(来自每个中心的20名受试者)组成,并使用不同的扫描参数和多个MRI系统获得。 数据集的体素分辨率范围为0.25x0.25x2.5 mm至0.5x0.5x5.0毫米。 在图中可以看到一个轴向切片图像的样本。8个受试者用作训练样本,产生86个轴向训练切片。 我们使用8个受试者进行验证,产生90个轴向切片。 对于未标记的组,我们使用40个受试者,产生613个轴向切片,对于测试组,我们使用12个受试者,产生137个切片。 将所有样品重新采样到0.25x0.25mm的公共空间。

网络结构:U-Net

结果:
13234144-79ae6401e05fd7d9.png

结论

本篇工作扩展了半监督mean teacher方法用于分割任务,表明即使在显示的小数据制度下,如果没有标签数据可用,这种技术也可以提供重大改进。 我们还设计了一种方法来维持传统的数据增强程序,同时仍然利用教师/学生的正规化。 所提出的技术可以与任何其他深度学习架构一起使用,因为他将半监督训练过程与结构选择分离。
从这些结果可以明显看出,该技术的未来探索可以进一步改善结果,因为即使使用少量未标记的样品,我们也发现该技术能够提供显着的改进。

转载于:https://www.jianshu.com/p/4fbb70820b89

猜你喜欢

转载自blog.csdn.net/weixin_33716941/article/details/91316241