INSTANCE 2022数据集

论文链接:https://arxiv.org/abs/2301.03281

数据集链接:Home - Grand Challenge

github baseline:GitHub - PerceptionComputingLab/INSTANCE2022: Official repository of MICCAI 2022 INSTANCE challenge

数据集得自己填表申请

比赛是2022的,论文是2023的,还是比较新比较有参考价值的

摘要

三维非对比头部CT (NCCT)扫描颅内出血的自动分割在临床应用中具有重要意义。现有的出血分割方法通常忽略了NCCT的各向异性,并且在不同的内部数据集上使用不同的指标进行评估,这给提高分割性能和对不同方法进行客观比较带来了很大的挑战。旨在解决上述问题,促进颅内出血分割和各向异性数据处理的发展。INSTANCE发布了一个包含100个具有基础真值的案例的训练集和一个包含30个没有基础真值标签的案例的验证集,这些案例可供参与者使用。一个包含70个案例的测试集用于最终评估和排名。根据Dice Similarity Coefficient(DSC)、Hausdorff Distance(HD)、Relative Volume Difference(RVD)和Normalized Surface Dice(NSD) 4个指标对不同参与者的方法进行排名。共有13个团队提交了不同的解决方案来解决这些挑战,为未来的研究人员提供了几种基线模型、预处理策略和各向异性数据处理技术。获胜者方法的平均DSC为0.6925,比我们提出的基线方法有显著增长。据我们所知,所提出的INSTANCE挑战发布了第一个颅内出血分割基准,也是第一个旨在解决三维医学图像分割中各向异性问题的挑战,为这些研究领域提供了新的选择。

背景

非收缩头部计算机断层扫描(NCCT)是诊断脑出血INTRACRANIAL hemorrhage (ICH)的主要成像方式,因为它在大多数急诊室广泛使用,并且检测脑出血的灵敏度很高。此外,NCCT可以准确监测出血进展,并有效量化脑出血的血肿体积[1],[4],[7],使其成为脑出血诊断的金标准检查。

ABC/2方法[13]因其操作简单,在临床实践中是一种有效的血肿体积估算方法。然而,ABC/2方法的估计精度在不规则或大规模出血时急剧下降[8],[14]。脑出血分割方法,使准确和快速的血肿体积定量,已成为脑出血诊断的主要标准。

然而,对ICH进行自动分割还存在许多挑战。例如,不同患者的出血结构在形状、大小和定位方面存在很大差异,因此无法使用有价值的位置和形状先验,而这些先验是分割许多其他解剖结构的重要因素。ICH区域边界的模糊进一步提高了分割任务的难度[15]。

最近,基于深度学习的脑出血分割模型对脑出血区域进行分割并量化血肿体积,从而有效地诊断脑出血,并取得了有竞争力的结果[6],[16]-[20]。然而,上述所有ICH分割方法都忽略了NCCT体积的各向异性,只是简单地执行2D或3D卷积网络,并且它们是在不同的内部出血分割数据集上进行评估的,具有不同的指标,这使得提高分割性能和对这些数据集进行客观比较具有很大的挑战性

我们收集并发布了一个由几位经验丰富的放射科医生提供的200个3D Volumes的ICH分割数据集,并对其进行了精细的标记,并鼓励参与者开发新的算法,利用各向异性NCCT体积有效地分割血肿区域。

***NCCT(非造影剂增强计算机断层扫描),它在常规情况下生成的是一系列的2D图像切片,这些切片显示了身体内不同深度的断层结构

***对于NCCT数据,各向异性可能表现在以下几个方面:

  1. 空间分辨率的不同: NCCT图像在X、Y和Z三个方向上的空间分辨率可能不同。这意味着图像中的像素在不同方向上表示的距离可能不同,从而影响了在不同方向上观察解剖结构的清晰度。

  2. 像素尺寸的变化: NCCT图像的像素可能在不同方向上具有不同的物理尺寸。例如,在横向和纵向方向上的像素大小可以与轴向(Z方向)上的像素大小不同。这可能导致图像在不同方向上的细节呈现不均匀。

  3. 重建插值: 在NCCT数据的3D重建过程中,插值可能会用于填充像素之间的空隙。这可能导致在某些方向上的图像细节模糊或失真。

  4. 切片间距: NCCT数据中的切片间距可能不同。切片间距影响着体积数据的连续性和空间分辨率。

在本挑战中,各向异性表现在:像素间距:0:42mm0:42mm5mm

相关工作

颅内出血分割方法

Ironside等人利用U-Net[22]自动分割脑出血并估计血肿体积。与人工和半自动分割技术相比,它们达到了相当的准确性和更高的效率[8]。

为了解决ICH切分任务标注数据不足的问题,Kuo等人提出了一种patch-based FCN网络,并以主动学习的方式对ICH进行了切分[23]。

Chang等人提出了一种基于roi的框架,该框架通过将特征金字塔网络中的3D特征投影到2D网络中,专门针对ICH检测和分割任务进行了优化[18]。'

Kwon等人提出了一种Siamese U-Net方法,利用健康模板学习到的特征与输入图像之间的不相似性来分割ICH[20]。

Kyung等人提出了一种针对ICH的监督多任务辅助表征迁移学习网络(supervised multi-task aiding representation transfer learning network),该网络分为上游和下游。在上游,通过多任务学习(分类、分割、重构)进行有效的表征学习,并加入一致性损失缓解目标具体头部的差异。对于下游,将上游训练好的特征提取器与3D算子(分类器或分划器)相结合,实现特定任务[16]。(?)

Wu等人提出了一种将基于注意力的卷积神经网络与变分高斯过程相结合的多实例学习方法(a combination of an attention-based convolutional neural network and a variational Gaussian process)用于颅内出血切片预测[24]。

Toikkanen等人提出了一种基于生成式对抗网络(generative adversarial network)残差分割方法,通过模型生成原始部分没有出血的图像,然后计算生成的图像与原始图像的差值,从而得到分割后的图像[17]。

Abramova等人将squeeze-excitation block引入3D U-Net,解决了节段性出血性脑卒中病变问题。此外,还提出了restrictive patch sampling,以缓解类别不平衡问题,并处理脑室出血问题[25]。

Kuang等人设计了新的自我注意模块和上下文注意模块,充分利用了in-chip 和 interchip的信息。此外,还提出了多级训练策略,以减少类别间不平衡的影响[26]。

Wang等人提出了一种mask Multi-Task Network方法,利用不同位置不同类型的颅内出血来检测颅内出血的脑CT体积并区分出血类型[27]。

Guo等人提出了一种用于ICH同时分类和分割的全卷积神经网络,并使用ConvLSTM模块来解决空间信息丢失的问题[28]。

Kadam等人提出了结合Xception和LSTM/GRU的颅内出血分类体系。通过实验还发现,与Xception和Xception LSTM模型相比,Xception GRU模型在大多数指标上具有更好的性能[29]。

然而上述方法的评估标准不统一,我们提出的INSTANCE挑战提供了一个标准化的程序,可以在相同的测试数据集和一致的评估指标上系统地评估和比较不同的SOTA方法,从而实现不同技术之间客观公正的比较。

医学图像分割

Instance挑战的组织

数据集

我们收集了患者的200个非对比头部CT体积来构建挑战数据集。

在这200例脑出血中,被诊断为不同类型的脑出血,包括肝实质出血(IPH)、脑室内出血(IPH)、蛛网膜下腔出血(SAH)、硬膜下出血(SDH)和硬膜外出血(EDH),每种脑出血的例子见图1。

intraparenchymal hemorrhage (IPH), intraventricular hemorrhage (IPH), subarachnoid hemorrhage (SAH), subdural hemorrhage (SDH), and epidural hemorrhage (EDH)

对于INSTANCE数据集中的每个主题,我们首先将传统的医学数字成像和通信(DICOM)文件转换为神经成像信息学技术倡议(NIfTI)格式。通过这种方式,每个例子只有一个单一的NIfTI文件,而不是一堆DICOM文件,使其更容易在图像分割程序中处理。

CT体尺寸范围为512 X 512 X 20 ~ 512 X512X 70,CT体像素间距为0:42mmX0:42mmX5mm,具有各向异性,层间分辨率远小于层内分辨率。窗宽为90HU,窗中心为40HU。

评估和排名方法

 INSTANCE挑战采用了四个与准确性相关的评估指标:Dice Similarity Coefficient (DSC)、Hausdorff Distance (HD)、Relative Volume Difference (RVD)和Surface Dice (NSD)[35]。

我们使用DSC和HD,因为它们广泛应用于不同的医学图像分割挑战。它们是评估分割性能的互补指标。DSC用于测量ground truth与分割结果之间的区域重叠误差,HD用于评估分割表面与目标表面的契合度。

我们使用RVD,因为ICH分割的目的是量化血肿体积,使得预测和标签之间的体积差异对结果分析具有重要意义。此外,我们进一步增加了NSD指标作为HD指标的补充评估,因为当预测是正常的头部CT扫描没有出血时,HD将变得无限。NSD还测量目标和预测边界之间的差异。

结果

在提出的INSTANCE挑战中,我们采用了SLEX-NET[6]作为基线模型。值得注意的是,SLEX-NET中使用的数据集与INSTANCE 2022不同。因此,我们在INSTANCE 2022数据集上重新训练基线模型的算法,其他训练细节与原文设置一致。

对于参与者的模型,我们发现所有参与者都选择了与U-Net相关的架构,包括注意力U-Net[37]、U-Net[22]、3D U-Net[38]、nnU-Net[39]等。其中,nnUNet仍然是最受欢迎的模型,13个团队中有7个采用了nnUNet作为骨干网络。

比赛结果↓

Results - Grand Challenge

评估结果

重要的是,大多数研究小组得到的HD平均值为“无穷大”,因为他们的方法错误地将一些有微小出血的疑难脑出血病例诊断为正常受试者

排名靠前的队的成绩分布标准差要小于排名靠后的球队,存在的异常值也较少。

 血肿体积分析

体积较小的出血点较难分割,而体积较大的血肿ICHs相对容易获得较好的分割效果。

 图3用散点图突出了体积大小与DSC分数之间的相关性。由此可见,体积较小的出血点较难分割,而体积较大的血肿ICHs相对容易获得较好的分割效果。

图4展示了四种血肿体积大小组的所有方法的效果。它是通过将70个测试用例与四个不同的卷大小组分开来生成的:包括[0;4213);(4213;7235);(7235;19640);(19640;inf],根据各组结果计算DSC平均评分。图4进一步证明,对于不同算法的参与者,DSC分数随着体积大小的增加而提高。

出血分型分析

颅内出血的不同亚型位于大脑的不同位置,患者可能出现几种出血的组合。

图5显示了不同类型出血的平均DSC值。它表明,与其他四种ICHs相比,SAH在所有指标中取得了最差的结果。因此,如何有效地分割SAH可能是改善ICH分割最迫切需要解决的问题。

 挑战排名分析

在图6 (a-d)中,大部分黄色块位于对角线上方,蓝色块位于对角线下方,说明大多数级别较小的队伍明显优于级别较大的队伍。

此外,它还表明,不同metrics具有区分好坏的独特能力。例如,T7的DSC、NSD和HD显著优于T12,而RVD指标不存在显著优势。

讨论

2D/3D架构选择

我们注意到获胜者的方法采用了2D/3D的组合方法,并且大多数3D的方法都优于2D的实现方法,但是我们不能明确地得出哪种方法优于另一种方法的结论,因为影响最终结果的因素还有很多。

为此,许多参与者使用了3D UNet实现,然而,考虑到该挑战中的CT体积是各向异性的(像素间距:0:42mm0:42mm5mm),这可能不是最佳解决方案[43],因此需要更有效的技术来利用各向异性体积的层间背景。

ICH分割的瓶颈

1. 第IV-C2节的血肿体积分析表明,对小体积出血的分割性能较差如图3所示

DSC评分低于0.3的大多数是出血量小于15000m3的受试者,所有受试者的DSC整体表现明显变差,DSC评分较低

2. 此外,IV-C3节的出血亚型分析显示,蛛网膜下腔出血(SAH)在所有指标中表现最差,平均DSC评分仅为0.41。因此,如何处理蛛网膜下腔出血是脑出血分割的另一个瓶颈。

未来的ICH分类研究方向可能集中在上述两个瓶颈上。解决这些疑难病例将大大提高出血诊断的研究水平。

评价指标分析

我们强烈建议使用DSC、NSD和RVD作为ICH分割基准的评估指标。HD和NSD是类似的指标,用于评估目标和预测边界之间的差异。然而,我们遇到了多个极端情况,平均HD指标等于无穷大,当预测方法错误地将那些有小出血病灶的硬病例诊断为正常的头部扫描。无限的数值使得在该度量上对不同算法进行有效排序变得很困难。然而,NSD指标与DSC有相同的上限(100%),不会发生这种情况。因此,对于INSTANCE挑战,Hausdorff距离可能不是一个好的度量选择,我们考虑在未来的INSTANCE挑战中放弃它。

局限性和未来工作

数据收集和注释

尽管INSTANCE2022挑战赛提供了相对较大的数据集,但这些数据主要来自同一家机构的同一台CT扫描仪。虽然它可以在我们的挑战中工作,但它肯定会限制不同参与者开发的模型的泛化。此外,在数据标注上,我们只将出血区域作为前景,没有考虑脑出血的亚型,这些亚型实际上是临床诊断的重要信息,也可以指导脑出血的分割。

任务设计

今年我们只考虑出血分割任务。然而,进行脑出血分类和血肿体积量化也很重要,这与临床高度相关。多任务的设计可以同时使挑战更加全面,为参与者提供更多样化的研究方向。综上所述,我们将在未来的挑战中将单任务挑战提升为多任务挑战。

源代码可用性

坏消息:除了一支队伍参赛者都没公开代码kora!

未来工作

1) 来自更多的机构的数据

2)    更多的注释和全面的任务设计

3)开源代码的必选选项

猜你喜欢

转载自blog.csdn.net/Scabbards_/article/details/132554530