Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning

注明：本文属于博主原创，要转载请注明出处，尊重作品的原创性
转载请注明出处：https://blog.csdn.net/Resume_f/article/details/103000410

深度学习分类肺癌亚型和预测突变基因

这篇论文与2018年发表在nature medicine的一篇文章，是一项研究的成果，这为病理科医生以及肿瘤科医生（研究者）带来了新的曙光，该项研究是由纽约大学医学院完成的，他们的研究表明利用深度学习可以对非小细胞肺癌的病理切片结果进行分类以及突变基因的预测。这也是我阅读的第一篇预研究生的文章，下面我将从四个方面理解整篇文章：

科研背景
研究方法
实验及结果
工作总结

背景-肺癌的相关背景

肺癌是世界范围内最常见的恶性肿瘤之一，据美国癌症协会和癌症统计中心统计，每年超过15万肺癌患者死于肺癌。肺癌的致病因素有很多种，其发病率和死亡率都是最高的，是癌症中的第一大杀手。

肺癌按细胞形态分为非小细胞肺癌（non-small cell lung cancer，NSCLC约占80%）和小细胞肺癌（small cell lung cancer，SCLC大致约占20%) ，而大多数非小细胞肺癌被发现时已是晚期，若不干预治疗，生存率是很低的。在占据绝大多数的非小细胞肺癌中，肺腺癌（LUAD）和肺鳞状细胞癌（LUSC）是两个主要的亚型。但是这两种肺癌类型的治疗方案却截然不同，所以准确区分肺癌亚型成了诊断病症最关键的一步。

目前，组织病理切片是病理学科专家评估肺癌进展阶段、分类和分型的最主要方法之一，而这要靠经验丰富的病理科医生才能诊断。

科研背景

01. 病理学家诊断肺癌的困境
肺组织病理切片是用来诊断肺癌类型和时期的典型手段。通常是直接通过显微镜观察外观对组织分型，而在显微镜下观察组织的染色图像通常是放大倍数进行采集，故这种诊断方式存在很大难度，尤其在低分化肿瘤中，LUAD和LUSC之间的区别就更难分辨。

02. 人工智能分析肺癌切片图像
如今，借助人工智能对肺癌全片图像识别实现自动分型和预测肺癌是已成为现实，目前有Yu等人使用了机器学习结合图像处理技术和常规阈值化，实现区分正常切片和肿瘤切片(AUC达0.85）和区分LUAD和LUSU切片(AUC达0.75)[12]。

03. 深度学习技术分类预测肺癌
深度学习在癌症基因组图谱(TCGA）数据集上实现肺部肿瘤分类，其AUC达到0.83 [13]，同时血浆DNA值分析已被证明可以很好地预测非小细胞癌的存在(AUC达0.94) [14]，使用免疫化学标记物区分LUAD和LUSC的AUC达0.94 [15]。

本论文的工作
研究者训练了一个深度学习模型（谷歌的Inception V3）可以帮助病理科医生准确区分肺癌的亚型：LUAD和LUSC，还能确定细胞中与肺癌相关的六种基因的突变情况，该方法也可以适用于任意癌症类型

研究方法

分类肺癌及预测基因突变

在该项研究中，研究者选用了由谷歌开发的深度卷积神经网络（Inception V3），使用从癌症基因组图谱（TGCA）中获得的大量病理切片图像训练模型完成两个任务：

将模型训练成一个三向分类器，以准确自动地将病理切片分类为正常肺组织、LUAD或LUSC；
训练模型对LUAD的十种最常见的突变基因进行预测，并经实验，他们发现了其中六种突变基因—STK11、EGFR、FAT1、SETBP1、KRAS和TP53可以从组织切片中预测出来。

深度卷积神经网络（Inception v3)

研究者从GDC数据库中获取了1634张全切片图像 (图a：567张LUAD切片、609张LUSC切片和459张正常肺组织切片) 分成训练集，验证集和测试集，每张全切片图像又被切分成数量不等的512x512大小的小切片作为输入，训练Google的Inception V3神经网络(图b)，并将小切片的分类结果汇总作为每张全切片的分类（汇总方法是通过计算AUC值得到总的AUC，具体有两种计算方式在实验中提及) ，最后训练得出一个三向分类器，能区分正常肺组织、LUAD和LUSC。

网络结果

实验及结果

本文一共进行了6项实验。

实验1–肺癌分类

本文的第一个实验是测试卷积神经网络Inception V3分类肺癌亚型的准确性，根据训练情况不同，模型分为迁移学习模型(曾在ImageNet数据集上进行过训练，具备识别1,000个不同类的能力，再对其进行分类任务训练)和全训练模型(完全重新训练Inception V3网络)。全切片图像分类的AUC计算方法有两种：①是每个小切片的AUC求平均，即平均预测准确率；②是计算每个正分类小切片的百分比，即正分类切片百分比。

图a全训练模型 分类正常肺组织和肺癌组织：平均预测准确率为0.993，正分类切片百分比为0.990，全训练模型分类正常切片和肺癌切片能做到几乎无错误的分类；
图b迁移学习模型 分类LUAD和LUSC：平均预测准确率为0.847，正分类切片百分比为0.844，迁移学习模型也能诊断肺癌亚型，且准确率约在84%；
图c全训练模型 分类LUAD和LUSC：平均预测准确率为0.950，正分类切片百分比为0.947，与图b对比，全训练模型的准确率在95%，表明全训练模型的性能较好；
图d与图c相同 但仅在肿瘤图块进行分类：平均预测准确率为0.952，正分类切片百分比为0.949，表明有无正常组织切片的干预影响，模型性能也不受其影响。

实验2–视野大小的影响

本文的第二个实验是将实验1中的卷积神经网络模型训练成一个三向分类器，分类正常肺组织、LUAD或LUSC，在对病理切片放大不同倍率的情况下测试分类器的准确性，探究图像的放大率与视野大小对模型性能的影响，该实验使用的测试集与实验1相同，如右表所示。（表中前三大行为实验1的结果数据）

在20x倍率下： 视野较窄，但模型的准确率依然在95%以上。被分类为正常组织切片的平均预测准确率为0.984，正分类切片百分比为0.985；被分类为LUAD切片的平均预测准确率为0.969，正分类切片百分比为0.970；被分类为LUSC的切片的平均预测准确率为0.966，正分类切片百分比为0.964。
在5x倍率下： 模型的准确率较20x倍率的高，低倍率的切片图像视野范围较大，模型的分类更加准确，具体数据如表最后5小行所示。

实验3–评估模型的通用性

本文的第三个实验是使用实验2得到的三向分类器分别测试了三种来自不同数据集的病理切片，实验结果如左图（横向分别为ROC曲线图，样本原始图像与病理学家生成的蒙版灰色重叠图示，通过三向分类器获得的热图）

图a测试98个Frozen切片：Frozen切片是来自TCGA图像，而TCGA图像是用作模型的训练集，包含了切片的所有特征。在放大5x和20x的切片中，模型的表现都是最好的，准确率在91%以上。
图b测试140个FFPE切片：FFPE切片与Frozen切片的制备技术不同，肿瘤样本纯度不及Frozen，有噪声，故该切片中含有没被训练过的特征。在放大5x和20x的切片中，模型表现与Frozen切片相比较差，准确率在86%以上。
图c测试102个Biopsies切片：Biopsies切片尺寸较小，图像噪声大，含有低分化的肿瘤。在放大5x和20x的切片中，模型性能也是可观的。

实验4–肿瘤选择的影响

本文的第四个实验是探究肿瘤区域的选择方式对深度学习模型性能的影响，测试的三种切片的肿瘤含量是不同的，这种不同会对算法的泛化能力产生影响，实验分别测试切片图像肿瘤区域的三种选择方式：病理学家手动选择，不选择和通过深度学习模型自动选择，得到其分类的准确性，如右图所示(右侧纵轴为AUC值)

测试Frozen切片： 在Frozen切片下，不管是自动选择性能还是手动选择，模型的AUC都在0.9以上，表现较好，并无太大差异。
测试FFPE切片： 在FFPE切片下，模型的表现略差，对于三种选择方式，在同等倍率下的AUC相差并不大，但采用不选择方式在肿瘤含量低的切片上，模型准确率仅在0.6，表现不稳定。
测试Biopsies切片： 在活检组织切片下，手动选择和自动选择的AUC相差在0.1范围内，模型对于手动选择肿瘤区域的性能表现较自动选择好，整体的AUC比FFPE切片的高，性能表现比FFPE稍好。

实验5–预测基因突变

本文的第五个实验是探究卷积神经网络是否可以预测LUAD的突变基因，研究者使用之前的深度学习模型，重新训练网络使其能预测十种在LUAD最常见的突变基因，为避免网络偏向学习LUAD或LUAC特有的突变，故只侧重关注LUAD切片的基因突变情况。研究者选择了突变率高于10%的基因和腺癌样本共有320个切片，21万张小切片用作训练和验证。
实验发现，有六种突变基因—TP53、STK11、EGFR、FAT1、SETBP1和KRAS可以被模型从组织切片中预测出来，准确率在0.733-0.856。

图a对整个切片图像预测：发现了TP53（等位基因频率为0.33）和STK11（等位基因频率为0.25）为可能发生突变的基因。
热力图b和c：显示了几乎所有的LUAD切片都被深度学习模型高度预测出含有TP53突变型特征和STK11突变型特征的区域。
热力图d和e：图d表明了TP53突变是存在所有人类癌症中，而图e表明了STK11突变仅存在LUAD，是LUAD特有的特征。

基因突变

实验6–突变基因的可视化

本文最后的一项实验是将所有的基因图像可视化。

图a 突变基因的可视化：研究者将通过深度学习模型得到的十种突变基因的插图投影到2维平面上，通过t-SNE算法进行可视化。
表1：显示了深度学习模型对十种LUAD最常见的突变基因在每张全切片和每张小切片上识别的AUC，其中前六种突变基因的平均预测准确率在0.733以上，正分类切片百分比在0.716以上，能被模型成功地识别出来，而后四种突变基因的AUC在0.67之下，不能准确被模型识别。

突变的基因

实验总结

肺癌分类 该研究主要发现了深度卷积神经网络（谷歌的Inception V3）经大量的病理切片数据训练后可以区分出肺癌的亚型：腺癌和鳞状细胞癌，且准确率到达97%。
预测基因突变 该神经网络还能确定细胞中与肺癌相关的6种基因(STK11, EGFR, FAT1, SETBP1, KRAS和TP53)的突变情况，其准确范围在73%-86%，具体取决于基因。
提供诊断意见 研究发现，被模型分类错误的小部分肿瘤图像中，约有一半也被医生错误分类，突出了区分两种肺癌类型的难度。另一方面，研究中至少一名病理医生错误分类的54张图像中有45张被模型指定为正确的癌症类型，这表明深度学习模型可以提供有用的诊断意见。
识别其他癌症 在该研究中，研究者发现深度学习模型能提高病理医生诊断的准确度，还可以发现癌细胞及其周围组织的可见特征中以前未知的模式。为此，该团队计划继续使用其他癌症数据对深度学习模型进行训练，并将该模型应用于其他癌症类型。.

实验的创新性工作

在阅读完整篇文章后，我又再一次重新理顺文章的结构和思路，针对文章的创新性工作做出总结和个人评价：

数据集选取及处理 本项研究采用的数据集是来自癌症基因组图谱（TGCA）中的全切片图片。全切片图片是超分辨率图像，具有上亿兆的像素，尺寸非常大，不适合作为模型的输入。文献对全切片图像的处理是将全切片分成不重叠的子块，模型是基于子块进行训练，再将子块切片的分类结果汇总，得到全切片图像的分类结果。

实验模型的选取 目前以CNN为主的深度学习分析各类医学图像已取得不错的成果。在本项研究中，研究者选用了2014年在ILSVRC中取得第一名由谷歌开发的Inception网络，该网络是继AlexNet、VGGNet等网络风靡后的又一大突破，其本身具备识别1000多种对象的能力，常用于图像分类识别。结合数据和实际分类任务情况而言，选用Inception结构作为研究的主模型是非常合适。

训练模型的多样变体 实验的模型是基于Inception V3架构，研究者训练同一个模型完成不同的任务：

将模型训练成一个三向分类器，分类正常肺组织、LUAD和LUSC；

训练模型预测LUAD的突变基因。同时，根据训练方式不同，将模型分成：①迁移学习模型，使用在ImageNet竞赛中表现最佳的权重，对肺癌数据进行微调；

全训练模型，保留最后一层权重，重新对前面层的参数进行训练。

多样的验证方式 在实验中，采用了多种测试方法，验证模型的准确性和通用性：

①在独立数据集上测试模型分类性能；

②在不同视野大小的情况下测试模型分类性能；

③将模型分类情况与病理专家的分类结果进行对比；

④肿瘤区域的选择方式对模型性能的影响。文章中所做的实验，都是基于同一个模型下完成的；因此能充分地说明研究者选用的Inception V3结构的性能表现非常出色，能协助病理学家诊断肺癌病症。

个人看法

在了解完文章之后，我对这篇文章的研究内容，实验工作等有了总体的认识。论文的贡献主要是使用了深度学习技术对肺癌病理切片图像进行分类及预测突变基因，该项研究取得可观的成果，很大部分原因归结于拥有丰富的数据集去训练模型。研究使用的模型为谷歌的Inception V3卷积神经网络。作者并没有尝试去修改模型的结构，而是做了迁移学习，仅对部分参数进行微调。在使用迁移学习得到模型与重新训练Inception V3得到模型性能进行对比，这种对比的方式论证了Inception结构不仅能学习病理切片图像的特征，而且分类很准确，充分地体现了CNN网络的强大。除了强大的CNN网络外，也有像ResNet网络或许在该领域上也会有突破性的效果，这也是一项可尝试的实验。

最后附上文章的地址：https://www.nature.com/articles/s41591-018-0177-5

注明：本文属于博主原创，要转载请注明出处，尊重作品的原创性

居居H

发布了15 篇原创文章 · 获赞 37 · 访问量 4230

私信关注

【论文阅读】Classification and mutation prediction from non-small cell lung cancer histopathology image..