更少的图片标注工作,更棒的分类效果。肺结节诊断论文笔记。


写在最前面

只有少量的标记的数据集或是只有少量的数据集往往是我们工作的实际情况,这是一种不完美或是说不完备的情景。我对此想到了RWBY中的一句话"我们的敌人不会等着我们学成毕业再行动,我们必须时刻准备着"。作为即将步入研究生的我,我想未来的项目也不会等着我什么都学明白了再出现,我们必须时刻准备在短时间内能学完大量知识,为解决工作中的问题提供力量,因为无法完美准备的工作正是理工科的常态。
读本文意在帮一个和我关系很好的老师做一个类似的程序,所以本文目的为理解思路,进行复现,开始!


论文名

Lung Nodule Detection using 3D Convolutional Neural Networks Trained on Weakly Labeled Data

论文地址

论文地址

摘要渣译

早期发现肺结节是目前预测和治疗肺癌最有效的方法之一。因此,在过去十年中,人们开始关注肺结节的计算机辅助诊断(CAD)概念摘出1,其目的是有效地检测,分割肺结节并将其分类为良性或恶性。由于它们在形状,大小和质地上的任意性,有效检测这些结节仍然是一个挑战。在本文中,我们建议采用三维卷积神经网络(CNN)来学习结节检测的高度辨别特征,而不是几何形状或纹理等手工设计。虽然3D CNN是用于对数据的时空统计建模的有前途的工具,但是它们受到对详细3D标签的需求的限制,与获得2D标签相比,这可能非常昂贵。现有的CAD方法依赖于获得肺结节的详细标签,训练模型,这也是不现实和耗时的。为了缓解这一挑战,我们提出了一种解决方案,其中专家需要仅提供点标签,即结节的中心像素,以及其最大预期尺寸。我们使用无监督分割来生长出用于训练CNN的3D区域。使用SPIE-LUNGx数据集上的实验,我们表明,使用这些弱标签训练的网络可以产生相当低的误报率和高灵敏度,即使没有准确的3D标签。

前言

别人:
1.难以获得带注释的数据,这比传统的计算机视觉要昂贵得多。
2.2015年肺癌和支气管癌死亡的人数比其他所有癌症都要多。
3.Kumar等人使用自动编码器(无监督学习网络)用于学习将结节分类为恶性或良性。
4.Ginneken等使用现成的卷积神经网络用于分类的功能。
5.大多数这些方法都是使用2D卷积滤波器在2D图像上单独训练,而手头的数据本质上是3维的。
6.罗斯等通过考虑“2.5D”表示来解决这个问题,该表示从3个正交视图中的感兴趣点获取图像的切片用于训练深度网络。
自己:
1.本文检测系统通过使用“点标签”减少了专家的标签工作,“点标签”基本上是可能指示结节中心的单个像素位置。通过使用无监督学习方法从弱信息中估计真实标签,我们表明我们可以减少专家标注所需的工作量,同时能够训练能够有效区分的3D网络。
2.我们建议在以结节为中心的较小的3D区域而不是整个图像上训练我们的网络,同时分别构建具有不同大小的两个网络,分别为41×41×7和25×25×7。最终检测是作为两个网络的共识而获得的。我们的主要贡献可归纳如下:
(1)我们提出了一个模块化系统,它利用了3D卷积神经网络的鲁棒性来解决肺结节检测问题。
(2)我们的系统使用点标签,指定单个体素位置,指示结节的存在,以及最大的横截面积。
(3)通过学习具有不同大小的两个不同网络,我们的检测系统实现了改进的泛化。
(4)我们在AAPM-SPIE-LungX结节分类数据集上展示了有希望的结果。

方法

预估弱标签

我们首先仅使用单个体素位置或点标签,这表明存在结节。
过程:初始切片 ROI区域 基本阈值 超像素滤波 最终预估图
在这里插入图片描述

训练

1.如果结节的位置是V(x,y,z),其中V是整个CT体积,我们选择输入体积为v = V(x-w:x + w,y -w) :y + w,z -h:z + h),其中h是X,Y平面中的窗口大小和Z平面中的h。我们使用w = 10 - 25和h = 3,5的范围内的值。
2.训练3D CNN需要很多例子才能有效地学习滤波器。因此,为了给我们的训练集扩充,我们将同一结节内的不同体素视为不同的正面例子。典型的结节在其最大尺寸范围内可以是3-28个像素宽,并且通常跨越3-7个切片。
3.我们随机抽取强度高于阈值的样本位置(在Hounsfield量表上≈400-500)。通过AAPM-SPIE-LungX数据集产生了约15K阳性样本和约20K阴性样本。

网络结构

如图2所示,我们的网络包含5个卷积层,其后是整流线性单元(ReLU)激活层,2个最大池化层,以及用于分类的最终2路softmax层。有dropout,卷积内核大小为1×1。
在这里插入图片描述

测试与诊断

1.观察到系统上的大多数假阳性检测是因为气道是肺的一部分,但在局部观察时看起来很像结节。
2.如果当前体素周围的区域是球形,则得到的“点得分”高。 点分数图在每个当地社区中设定阈值,以提供候选人的最终名单。
3.我们设置了一个低阈值来消除明显的非结节状元素,并运行3D高斯平滑滤波器来去除体积内较小的杂散粒子。这些步骤显着减少了误报,导致每次扫描大约有80-200个3D结节。

实践

1.使用SPIE-AAPM-LUNGx数据集:该数据集将每个结节标记为良性或恶性,它不包含结节的详细标签,因此是一个真实的测试用例。在70次扫描中,我们使用20次扫描,47次测试。 丢弃了三次扫描,因为在指定位置存在结节存在模糊性。
2.多尺度CNN:肺结节的大小差异很大,通常在3mm到20mm之间。许多成功的检测系统采用多尺度架构。我们选择了两个尺度为25×25×7和41×41×7的实验。我们分别训练它们并从每个CNN获得预测以获得最终结果。最后,我们在各种检测阈值下生成无限制的受试者工作特征曲线概念摘出2。在特定阈值处,如果在地面实况的小半径(通常为5-10)周围存在结节,则声明匹配。且只有最接近且在距离阈值内的那个被认为是阳性,
3.结果:我们计算了我们系统的FROC,它将灵敏度与每次扫描的平均误报数进行了对比。结果如图3a所示。可以看出,即使使用弱标记系统,我们也能获得每次扫描10次误报的灵敏度80%。样本预测如图3b所示。
在这里插入图片描述

概念摘出

computer aided diagnosis
计算机辅助诊断
第一次我翻译这个的时候,完全不知道有这个专有名词

free receiver operating characteristic (FROC)
无限制的受试者工作特征曲线

程序复现

先鸽着,正在下载Matlab准备做两科的大作业,之后再下载肺结节数据集,然后还要调试一会。

猜你喜欢

转载自blog.csdn.net/unlimitedai/article/details/84313368