【论文笔记】A classification model for detection of ductal carcinoma in situ by Fourier transform infrared

目录

一、摘要

二、介绍

三、方法模型

​四、实验 

五、结论


论文标题:A classification model for detection of ductal carcinoma in situ by Fourier transform infrared spectroscopy based on deep structured semantic model

中文标题:基于深度结构化语义模型的傅里叶变换红外光谱导管原位癌检测分类模型

论文链接:A classification model for detection of ductal carcinoma in situ by Fourier transform infrared spectroscopy based on deep structured semantic model - ScienceDirect (yitlink.com)

一、摘要

        在本研究中,我们提出了一种基于深度结构化语义模型(DSSM)的光谱分类模型,并成功地将其应用于傅里叶变换红外(FT-IR)光谱分析,用于导管原位癌(DCIS)的检测。与传统的深度学习模型相比,我们根据光谱是否来自同一类别,将光谱数据分为正对和负对。根据光谱对的光谱相似性提取特征,构建了DSSM结构。这种新的构造模型增加了用于模型训练的数据量,并降低了光谱数据的维数。

        首先,对FT-IR光谱进行配对。如果光谱对来自同一类别,则被标记为正对;如果光谱对来自不同的类别,则被标记为负对。其次,将每个光谱对中的两个光谱分别放入DSSM结构的两个深度神经网络中,然后计算两个深度神经网络输出特征映射之间的光谱相似度,通过最大化来自同一类别的光谱对的条件似然来训练DSSM结构。第三,在DSSM训练完成后,将训练集和测试集分别输入到两个深度神经网络中。将训练集的输出特征映射放入参考库中。最后,根据每个未知样本的输出特征映射到参考库之间的欧氏距离,使用k-最近邻(KNN)模型进行分类。根据k个最近样本的类别判断未知样本的类别。我们还使用主成分分析(PCA)降维进行比较。KNN模型、主成分分析-k近邻(PCA-KNN)模型和深度结构化语义模型-k近邻(DSSM-KNN)模型的准确率分别为78.8%、72.7%和97.0%,表明本文提出的模型具有较高的准确率。

二、介绍

        由于样本数量和人工成本的限制,每一类血清样本的光谱都很少。为了解决这一问题,我们提出了一种基于深度结构语义模型(DSSM)结构的频谱分类模型,它不仅可以增加用于训练的数据量,还可以降低数据的维数。与传统的单谱预测方法相比,将DSSM结构的光谱对之间的相似性作为预测目标,对原始数据进行排列和组合,重建数据集,增加了用于训练模型的数据量。DSSM结构主要用于NLP域中的语义相似性任务。然后,又将其引入了推荐领域。DSSM结构不仅可以获得句子的低维语义向量表示,而且还可以预测两个句子的语义相似性。

        本文提出了一种基于DSSM结构和k-最近邻(KNN)模型的光谱分类模型。DSSM结构是通过最大化来自同一类别的光谱对的条件似然性来训练的。在DSSM训练后,将训练集和测试集分别输入到DSSM结构的两个深度神经网络中,训练集的输出特征图作为参考库。然后,利用KNN模型根据未知谱的输出特征图与参考库之间的欧氏距离进行分类。我们提出的方法在分析光谱方面有两个优点:

         (1)增加了用于训练神经网络的数据量;

        (2)降低了高维光谱的维数。

三、方法模型

218份血清样本来自北京大学人民医院,其中包括101例DCIS患者,117例健康对照。我们从每个样本中收集一个光谱,形成一个由218个光谱组成的数据集。为了减少光谱强度差异对每个样本的影响,对所有光谱数据进行归一化处理,如图1所示。

        在本研究中,我们根据成对的光谱是来自相同或不同类别的光谱来标记它们的正对或负对。DCIS样品的光谱为X = {X1、X2、X3,…XM},健康对照的光谱为Y = {Y1、Y2、Y3,…YN}。光谱总数为M + N。

        来自同一类别的光谱对被标记为正对,来自不同类别的光谱对被标记为负对。正对的类别标签为1,负对的类别标签为0。正对的数量为 + ,负对的数量为M*N,数据总数为 +  + M*N,这大大增加了训练神经网络的数据量。输入1为DSSM结构的一个深度神经网络的输入谱,输入2为另一个深度神经网络的输入谱,如图2所示。

        为了判断未知样本的类别,计算未知样本与所有已知样本之间的欧氏距离,并选择最接近的k个已知样本。根据多数投票法,如果大部分样本属于某一类别,则未知样本也属于该类别。

DSSM-KNN模型:

        在本研究中,我们提出了一种基于DSSM结构和KNN模型的光谱分类方法。DSSM结构是通过最大化来自同一类别的光谱的条件似然性来训练的。接下来,利用KNN模型根据欧氏距离进行分类。

        DSSM的结构包括两个子神经网络。在本研究中,两个子神经网络由深度神经网络(DNNs)组成,它们具有相同的网络结构,但不共享参数(图3)。DNN由全连接层、批归一化(BN)层、全连接层和全连接层组成。全连接层中的神经元数量分别为128、64和16个,而BN层将加速收敛。DSSM结构的目的是使给定光谱和同一类别光谱的条件似然最大化。将两个谱对的谱分别输入到两个dnn中,然后计算两个输出特征图的谱相似度。在模型训练过程中,我们通过Sigmoid函数计算谱相似度的后验概率。

余弦相似性(Cosine similarity):

        本研究计算了L2-范数归一化后的输出特征映射的内积,并将其作为谱相似度,等价于计算余弦相似度。假设两个深度神经网络的输出特征图为a和b,其中一个= [x1,x2,…xn],b = [y1,y2,…yn]。a和b的余弦相似度用等式(2)计算。

        DSSM-KNN模型的生成过程如图4所示。训练DSSM后,将训练集的光谱输入到两个深度神经网络中的一个中,并将输出的特征图输入到参考库中。将测试集的光谱输入到另一个深度神经网络中,得到输出的特征图。DSSM结构的训练目标是同一类的谱对的余弦相似度较大,而不同类别的谱对的余弦相似度较小。因此,在DSSM结构之后,测试样本的类别可以通过与参考库的余弦相似度来确定。而余弦相似度与欧氏距离成反比,因此可以根据K个最近样本的类别来确定它属于某一类别,这就是KNN模型的思想。计算每个未知样本的输出特征图与参考库之间的欧氏距离,并将欧氏距离从最小到最大进行排序。通过设置K的值,如果大多数K个最近的样本属于某一类别,则未知样本也属于该类别。

四、实验 

DSSM-KNN模型的分类结果

        在36例健康对照中,34例被正确归类为健康对照,2例被错误归类为DCIS。在30例DCIS患者中,有30例均被正确归类为DCIS。绘制出相应的ROC曲线,所示ROC曲线的AUC为0.97。

        与传统的偏最小二乘判别分析(PLS-DA)和支持向量机(SVM)模型相比,DSSM-KNN模型获得了较好的分类结果。PLS-DA模型的准确性、灵敏度和特异性分别为90.9%、86.7%和94.4%。SVM模型的准确度、灵敏度和特异性分别为84.8%、86.7%和83.3%。

五、结论

        本文提出了一种基于DSSM结构和KNN模型的光谱分类方法。我们提出的方法有两个优点,一是增加了训练神经网络的数据量,二是降低了高维光谱的维数。采用KNN模型和PCA-KNN模型建立分类模型进行比较。KNN模型的准确度、灵敏度和特异性分别分别为78.8%、80.0%和77.8%。PCA-KNN模型的准确度、灵敏度和特异性分别分别为72.7%、53.3%和88.9%。DSSM-KNN模型的准确度、灵敏度和特异性分别为97.0%、100.0%和94.4%。KNN模型、PCA-KNN模型和DSSM-KNN模型的ROC曲线的auc分别为0.83、0.76和0.97。结果表明,DSSM-KNN模型具有较高的精度。综上所述,DSSM-KNN模型是一种有效的光谱分类方法。

猜你喜欢

转载自blog.csdn.net/Next_SummerAgain/article/details/130389736