论文阅读《Deep Learning for Identifying Metastatic Breast Cancer》

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/mabozi08/article/details/79194566

摘要:

生物医学图像国际研讨会(International Symposium on Biomedical ImagingISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转移性乳腺癌的挑战赛。我们的团队赢得了这两项比赛,获得了0.925的接收机操作曲线(AUC)的面积,完成了整个幻灯片图像分类的任务,并在肿瘤定位任务中获得了0.7051的分数。

 

introduction

我们的方法使用了数百万的训练patch来训练一个深层的卷积神经网络,做出patch级别的预测来区分肿瘤斑块和正常斑块。然后,我们聚合了patch级别的预测来创建肿瘤概率热图,并对这些热图进行后期处理,以预测基于滑动的分类任务和肿瘤定位任务。最后,将我们的深度学习系统和病理学家的解释相结合,可以显著降低病理学家的错误率。

分成一些小的256X256的块,然后先预测这些块是不是肿瘤区域,并得到一个概率,最后呢将这个块拼接起来,得到一个slide-based的预测,又生成了热值图,然后一些后处理部分 进行分类和肿瘤定位任务。

 

1.      Dataset and Evaluation Metrics

a)        Camelyon16 Dataset

训练幻灯片的groundtruth数据由病理学家对前哨淋巴结WSIs中转移性癌症区域的描述组成。数据以两种格式提供:包含癌转移位置的带注释的顶点的XML文件和显示癌转移位置的WSI二元掩码。

Evaluation Metrics

Slide-based Evaluation:区分有转移的幻灯片和正常的幻灯片之间的区别。竞赛参与者提交了每个测试幻灯片的概率,表明其预测的可能包含癌症。比赛组织者使用接收方(AUC)评分的区域来测量参与者的表现。

 

Lesion-based Evaluation:预测为癌症的切片中每个像素为癌变细胞的可能性。比赛组织人员使用WSI中真正癌变细胞的六种假阳性率,和每张WSI8种假阳性率评判性能。

 

Method

a)      Image Pre-processing

为了减少计算时间,并将我们的分析集中在最可能包含癌症转移的区域,我们首先识别WSI中的组织,排除背景空白。为了实现这一点,我们采用了基于阈值的分割方法来自动检测背景区域。特别是,我们首先将原始图像从RGB颜色空间转移到HSV颜色空间,然后利用Otsu算法计算每个通道的最优阈值,并结合HS通道的掩码生成最终的掩模图像。根据检测结果,每个WSI背景区域的平均百分比约为82%

注:大津法(OTSU)是一种确定图像二值化分割阈值的算法。它是按图像的灰度特性,将图像分成背景和前景两部分。因方差是灰度分布均匀性的一种度量,背景和前景之间的类间方差越大,说明构成图像的两部分的差别越大,当部分前景错分为背景或部分背景错分为前景都会导致两部分差别变小。因此,使类间方差最大的分割意味着错分概率最小。

b)      Cancer Metastasis DetectionFramework

我们的癌症转移检测框架包括一个基于patch的分类阶段和一个基于热图的后处理阶段。

在模型训练过程中,patch-basedclassification阶段作为输入完整的幻灯片图像和ground truth图像标注,表明每个WSI区域的位置都包含转移癌。随机从训练WSIs中提取数百万个小的正patch和负patch。如果小patch位于肿瘤区域,则是肿瘤/阳性patch,标记为1,否则为正常/阴性patch,标记为0。在选择了正负训练样本后,我们训练了一个有监督的分类模型来区分这两类patch,并将所有的预测结果嵌入到一张热图中。在基于热图的后期处理阶段,我们使用肿瘤概率热图来计算每个WSI的基于滑动的评估和基于损伤的评价得分。

 

c)      Patch-based ClassificationStage

在训练过程中,本阶段将从WSIs的正、负区域输入256x256像素的patches,并训练分类模型来区分正片和负片。我们对四种深度学习网络体系结构的性能进行了评估:GoogLeNet AlexNet VGG16和面向人脸的deep network。两个更深层次的网络(GoogLeNetVGG16)实现了基于patch的最佳分类性能。在我们的框架中,我们采用GoogLeNet作为我们的深层网络结构,因为它通常比VGG16更快更稳定。

在我们的实验中,我们评估了一系列的放大级别,包括402010,我们获得了40倍放大的最佳性能。

在整个训练数据集上使用GoogLeNet生成了肿瘤概率热图后,我们注意到有很大比例的错误是由于来自癌症组织学模拟的假阳性分类。为了提高这些区域的模型性能,我们从这些困难的负区域中提取了额外的训练样本,并对模型进行了重新训练,并为这些困难的负补丁提供了丰富的训练集。

 

d)      Post-processing

在基于patch的分类阶段完成后,我们为每个WSI生成一个肿瘤概率热图。在这些热图上,每个像素包含一个01之间的值,表示像素包含肿瘤的概率。

1.      Slide-based Classification

对于slide-based的分类任务,输入每个WSI的热图,后处理对一个完整的WSI输出单个肿瘤概率。给出一幅热图,从每个热图中提取28个几何和形态学特征,包括整个组织区域内肿瘤区域的百分比、肿瘤区域与最小周边凸区域的面积比、平均预测值和肿瘤区域最长的轴。我们在所有的训练病例中,通过肿瘤概率热图来计算这些特征,我们建立一个随机森林分类器来区分负WSIs中具有转移的WSIs。在测试用例中,基于滑块的分类方法实现了0.925AUC

2.      Lesion-based Detection

对于基于病变的检测后处理,我们的目的是识别每一个具有少数false positive WSI内的所有癌症病变。我们首先使用上面描述的初始训练数据集训练一个深度模型(D-I)。然后,我们训练第二个深层模型(D-II),并为肿瘤相邻的负区提供训练集。

这种模型(D-II)产生的假阳性比D-I少,但敏感性降低。在我们的框架中,我们首先将D-I产生的热图阈值设定为0.90,这就产生了一个二元热图。然后我们在肿瘤的二元掩膜中识别连接的组件,我们使用中心点作为每个连接组件的肿瘤位置。估计每一个肿瘤的概率,我们取D-ID-II在每个连通分量上生成的肿瘤概率预测的平均值。Camelyon16的评分标准被定义为6个预定义假阳性率的平均灵敏度:1/41/21248FPs /整个幻灯片图像。我们的系统得分为0.7051,这是比赛中得分最高的。

 

猜你喜欢

转载自blog.csdn.net/mabozi08/article/details/79194566
今日推荐