Overview of the HECKTOR Challenge atMICCAI2020:Automatic Head and Neck Tumor Segmentation in PET/CT

2020年MICCAIHECKTOR挑战赛综述：PET/CT中头颈部肿瘤的自动分割

摘要

本文概述了第一个HEad and neck TumOR（HECKTOR）挑战，该挑战是作为2020年第23届医学图像计算和计算机辅助干预国际会议（MICCAI）的卫星活动而组织的。挑战的任务是自动分割FDG-PET / CT图像中的头颈部原发肿瘤总体积，主要集中在口咽区域。该数据是从五个中心收集的，共254组图像，分为201个训练案例和53个测试案例。有64个注册团队和18个团队提交了重要意见，表明了对该任务的兴趣。最好的方法获得的Dice相似性系数（DSC）为0.7591，与我们提出的基准方法（DSC为0.6610）以及观察者之间在文献中报道的DSC协议（0.69）相比，显示出很大的改进。

介绍

在[2]（Automatic segmentation of head and neck tumors and nodal metastases in PET-CT scans）中，我们基于对HECKTOR挑战的训练数据的留一中心出交叉验证，开发了基线卷积神经网络（CNN）方法。获得了有希望的结果，但局限性促使了其他数据管理，数据清理和挑战的产生。通过在可公开获得的数据集上比较最近的分割结构以及口咽部地区H＆N肿瘤的主要肿瘤总体积（GTVt）分割任务的两种方法的互补性，这项挑战是建立在这些工作之上的。提议的数据集包括来自五个中心的数据。四个中心用于培训数据，一个用于测试。该任务具有挑战性，这是因为，除其他中心外，图像采集和质量的变化（来自看不见的中心的测试集，也就是CHUV测试集）以及PET图像中存在具有高代谢反应的淋巴结。

方法

挑战任务

评估目标

评估目标如下：通过确定最准确的分割算法，评估全自动GTVt分割对口咽区域H＆N癌症的可行性。分割算法的性能是通过计算预测和手动专家注释之间的Dice相似系数（DSC）来确定的。将所有测试患者的单个DSC分数平均，并且排名基于该平均分数。 DSC测量分割结果和注释之间的体积重叠。对于不平衡的分割问题，这是分割的一种很好的方法，即与图像尺寸相比，要分割的区域较小。 DSC通常用于评估分割算法，尤其是肿瘤分割任务[7,16]。
在提交的结果中未出现缺失值（即，对一个或多个患者的预测缺失），但如果在以后的公开排行榜中出现该值，则将其视为DSC为零。在并列排名的情况下，由于计算结果（53个DSC的平均值）的可能性很小，我们将精度作为第二个排名指标。执行统计分析，以使用Wilcoxon有符号秩检验来统计比较算法的性能。

挑战数据

培训和测试用例特征

培训数据包括来自四个中心（HGJ，HMR5，CHUM和CHUS）的201个案例。最初，[20]中的数据集包含298例病例，其中我们选择了口咽癌病例。测试数据包括来自另一个第五中心（CHUV）的53个案例。每个中心的PET / CT图像示例如图1所示。每种情况都包括神经影像信息技术倡议（NIfTI）格式的CT图像，PET图像和GTVt掩模（针对训练案例）以及患者信息（年龄，性别）和中心。还提供了定位口咽区域的边界框（自动区域检测的详细信息可以在[1]中找到）。最后，为了进行公平的比较，要求使用其他外部数据进行培训的参与者也仅使用HECKTOR数据报告结果，并讨论结果差异。

数据预处理方法

没有对图像进行任何预处理以反映临床数据的多样性并为参与者留出充分的灵活性。但是，我们提供了各种代码来加载，裁剪，重新采样数据，训练基线CNN（NiftyNet）并在GitHub存储库上评估结果6。提供此代码的目的是为了帮助参与者并最大程度地提高透明度，但是参与者可以自由使用其他方法。

评估方法

参与者可以访问没有ground truth注释的测试用例，并被要求在AIcrowd平台上的测试用例上提交其算法的结果。使用（3D）Dice相似度系数（DSC）对结果进行排名，该系数使用在原始CT分辨率提供的边界框（请参见第2.2节）裁剪的图像上计算，为
在这里插入图片描述
其中TP，FP和FN分别是真正像素，假正像素和假负像素的数量。如果提交的结果的分辨率与CT分辨率不同，则在评估之前我们应用了最近邻插值法。我们还计算了其他指标进行比较，即精度（TP /TP + FP）和查全率（TP /TP + FN），以研究该方法是提供较大的FP还是FN率。评估实现可以在我们的GitHub仓库上找到，并提供了最大程度的透明性。每个参赛团队都有机会提交最多五次（有效）跑步。在最终排名中使用了每个团队的最佳结果，这在Sect3中进行了详细说明，并在Sect4中讨论。

挑战结果报告

算法总结

组织者的基准方法

在[2]的初步结果中，我们使用标准的3D和2D U-Net [19] 训练了几种基线模型（数据不同）。我们对多模式PET / CT以及带有非加权Dice（即基于DSC）和交叉熵损失且没有数据增强的个体模式进行了培训。

参与者的方法

在[10]中，Iantsen等人提出了一个基于具有残余层的U-Net体系结构的模型，并补充了“挤压和激发”（SE）归一化，该模型先前是由同一作者针对脑肿瘤分割开发的。soft Dice loss和focal loss的未加权总和用于训练。测试结果是在训练集的不同分割上训练和验证的八个模型的集合中获得的。没有执行数据扩充。
在[13]中，Ma和Yang使用了U-Net和混合活动轮廓(hybrid active contours)的组合。首先，对3D U-Net进行训练以分割肿瘤（在训练集上进行交叉验证）。然后，通过模型集合在测试集上估计分割不确定性，以选择不确定性较高的情况。最后，作者使用混合主动轮廓模型来完善高不确定性情况。 U-Net经过Dice损失和top-K损失的未加权组合训练。没有使用数据扩充。
在[27]中，Zhu等人。使用了两步法。首先，分类网络（基于ResNet）选择可能包含肿瘤的轴向切片。然后使用2D U-Net对这些片段进行分段以生成二进制输出掩码。通过围绕提供的边界框移动和裁剪来应用数据增强，并且对U-Net进行了soft Dice loss训练。预处理包括剪切CT和PET，在裁剪后的体积内将HU标准化，并通过将其除以10来缩放PET的范围以对应于CT范围。
在[24]中，Yuan提出了使用基于U-Net架构的动态规模关注网络（SA-Net）整合不同规模的信息。他们的网络将不同级别的特征图中的低层细节与高层语义相结合。该网络使用标准的数据增强技术进行了培训，并具有作者先前开发的Jaccard距离损失。测试集上的结果是由十个模型组成的。
在文献[4]中，Chen et al提出了一个三步法框架，并对结果进行迭代求精。在这种方法中，多个3D U-Net使用Dice loss逐个训练，而不进行数据增强。捕获前一个模型的预测和特征，作为下一个模型的附加信息，以进一步细化分割。
在[6]中，Ghimire et al.开发了一种基于patch的方法来解决与3D图像和网络相关的内存问题。他们使用了传统卷积(小接受野捕捉细微细节)和扩张卷积(大接受野捕捉全局信息)的组合。他们用加权的交叉熵和Dice损失来训练他们的模型，并将补丁的随机左右翻转用于数据增强。最后，使用交叉验证过程中选择的最佳两个模型的集成来预测测试数据的分割。
在[23]中，Yousefirizi和Rahmim提出了一个基于SEGAN的深度3D模型，SEGAN是一个用于医学图像分割的生成性对抗性网络(GAN)。发电机采用改进的多相V网(以帮助保持边界细节)，鉴别器网络的结构类似于前者的编码器部分。使用MumfordShah(MS)和多尺度平均绝对误差(MAE)损失的组合来训练网络，而不增加数据。
在[21]中，Xie和Peng提出了一个3D SCSE NNU-net模型，通过集成空间和通道‘挤压与激发’(ScSE)模块来改进3D NNU-net。他们用Dice和交叉熵损失的加权组合以及标准的数据增强技术(旋转、缩放等)来训练模型。为了对CT图像进行预处理，基于这些值的0.5和99.5个百分位数，执行自动水平窗口式的强度值裁剪。PET的强度值通过减去平均值，然后除以图像的标准差来标准化。
在[17]中，Naser et al使用2D和3D U-Net的变体(我们报告了3D模型的最佳结果)。用骰子和交叉熵损失与标准数据增强相结合的方式训练模型。
在[18]中，Rao et al提出了一种由两种方法组成的集成方法，即一种3D U网和另一种具有3D上下文的2D U网变体。在不增加数据的情况下，使用top-k损失对模型进行训练。
在表3中，我们总结了参与者算法的一些主要组成部分，包括模型体系结构、预处理、训练方案和后处理。
在这里插入图片描述
总结了算法的一些主要组成部分：2D或3D U网、重采样、预处理、训练或测试数据增强、用于优化的损失、用于测试预测的多模型集成以及结果的后处理。我们使用以下缩写进行预处理：裁剪©、标准化(S)，如果它只应用于一种通道，则在括号中指定。对于图像重采样，我们指定算法是使用各向同性(I)还是各向异性(A)重采样以及最近邻(NN)、线性(L)或三次(Cu)插值。我们使用以下缩写来表示损失：交叉熵(CE)、Mumford-Shah(MS)和平均绝对误差(MAE)。更多细节可以在相关参与者的出版物中找到。

结果

我们在[2]中开发的基准方法在我们的GitHub知识库上作为示例提供给参与者，在2D和3D实现下，分别获得了平均DSC为0.6588和0.6610的结果，这些结果汇总在表4中。我们的基线方法在[2]中开发，并在我们的GitHub资源库上提供给参与者作为示例，分别在2D和3D实现下获得了平均DSC为0.6588和0.6610。关于个别模式的结果也被报告以供比较。参与者的测试结果从0.5606分到0.7591分不等。Iantsen et al.。10获得了最好的总体结果，平均dsc为0.7591，平均准确率为0.8332，平均召回率为0.7400。这些结果(DSC)并不显著高于第二好的参与者13，但显著高于第三好的参与者(相同测试的p值为0.0041)。在所有参与者中，平均精确度在0.5850到0.8479之间。召回率从0.5022到0.8534不等，后者出人意料地由3DPET/CT基线获得(尽管精度较低，与其他算法的输出相比反映出过度分割)。请注意，由于分数非常低，两名参与者决定撤回其提交的材料。我们允许他们这样做，因为他们的低分是由于不正确的后处理(例如，设置了错误的像素间距或图像原点)，并且不能代表他们算法的性能。
在这里插入图片描述

讨论

结果和发现

我们在这里区分技术和生物医学的影响。这项挑战的主要技术影响是对所提供数据的最先进算法进行比较。我们确定了解决这一任务的关键要素：3D UNET、预处理、归一化、数据增强和整合，如表3所示。结果的主要生物医学影响是有机会生成用于全面放射组学研究的自动肿瘤分割的大型队列。
另一个限制来自任务的定义，PET和CT的融合只有一个分割。对于放射学分析，考虑每个模态一个分割可能是有益的，因为由于该模态的空间分辨率较差，PET信号通常不包含在基于融合的分割中。