Abstract
Background:
越来越多的生物医学研究表明,miRNA 的功能障碍与许多人类疾病密切相关。鉴定疾病相关的 miRNA 将有助于理解疾病的病理机制。基于有监督学习的的计算方法用于 miRNA 疾病的关联预测不断在发展。这些方法需要实验验证的不相关 miRNA-疾病对的阴性样本,但由于缺乏生物医学研究兴趣,这些样本无法获取。现有方法主要是从未标记的样品中随机抽取阴性样品。因此,选择更可靠的阴性样本对于这些方法取得满意的预测结果具有重要意义。
Result:
在这项研究中,我们提出了一种计算方法称为 KR-NSSM,它集成了两个半监督算法,以选择更可靠的阴性样本用于 miRNA 疾病关联预测。我们的方法使用一个精确的 K 均值算法来初步筛选可能为阴性和阳性的 miRNA 疾病样本。采用基于Rocchio分类的方法进行进一步筛选,以获得更可靠的阴性和阳性样本。我们在 KR-NSSM 中实施了消融试验,发现两种选择步骤的结合将获得更可靠的用于 miRNA 疾病关联预测的阴性样本。基于五折交叉验证的综合实验表明,当使用我们的方法选择的阴性样本时,六个经典分类器和五个已知的 miRNA-疾病关联预测模型的预测准确性比以前的阴性样本选择策略有所提高。此外,通过我们的方法选择的1123个阳性 miRNA-疾病关联中的469个被现有的数据库证实。
Conclusions:
我们的实验表明,KR-NSSM 可以从未标记的样本中筛选出更可靠的阴性样本,这大大提高了 miRNA-疾病关联预测的监督式学习方法的性能。我们期望 KR-NSSM 能够成为生物医学研究阴性样本选择的有效工具。
关键词: miRNA-疾病关联预测,有监督学习,阴性样本选择
扫描二维码关注公众号,回复: 17205806 查看本文章
目录
2.2.KR-NSSM 中的消融试验(Ablation test in KR‑NSSM)
2.3.经典分类器的性能评价(Performance evaluation on classic classifiers)
2.5.阳性 miRNA 与疾病相关性的鉴定(Identification of positive miRNA‑disease associations)
4.2.1.特征向量的构造(Construction of feature vectors)
1.背景(Background)
众所周知,无论是阳性样本还是阴性样本,都需要监督式学习方法来预测可靠的 miRNA-疾病关联。然而,由于缺乏对生命科学的研究兴趣,所需的阴性样本无法获得。以前的研究使用两种策略来解决这个问题。第一个是从未标记的关联中随机选择阴性样本[22,26,30]。另一种是使用 K 均值算法将未标记的 miRNA 疾病样本分成 K 部分,并从 K 簇中随机选择阴性样本[23,31]。由于整个未标记样本中存在正样本,这两种选择策略会带来噪声,导致预测性能不可靠。
在这项研究中,我们提出了一种新的方法命名为 KR-NSSM 来选择更可靠的阴性样本用于 miRNA 疾病关联推断。具体来说,KR-NSSM 首先将来自 miRNA 和疾病的相似性测量结合起来,生成 miRNA-疾病对的特征向量。然后,它应用 SS-Kmeans [32]从未标记的样本中获得可能的阴性和阳性样本。Rocchio分类[33]最终被用来获得更可靠的阴性和阳性样本用于推断。基于五折交叉验证的综合实验表明,与现有的阴性样本选择策略相比,使用 KR-NSSM 方法收集的阴性样本可以显著提高预测精度。此外,我们利用 KR-NSSM 方法获得了1123份可靠的阳性样本,其中469份已被现有数据库证实。
2.结果(Result)
2.1.评估指标(Evaluation metric)
2.2.KR-NSSM 中的消融试验(Ablation test in KR‑NSSM)
2.3.经典分类器的性能评价(Performance evaluation on classic classifiers)
2.4.现有 miRNA-疾病关联预测模型的性能评价(Performance evaluation on existing miRNA‑disease association prediction models)
2.5.阳性 miRNA 与疾病相关性的鉴定(Identification of positive miRNA‑disease associations)
3.结论(Conclusions)
对于 miRNA 疾病关联预测的监督式学习方法,一个核心的挑战是实验支持的不相关的 miRNA 疾病对作为阴性样本是不可获取的。在本研究中,我们提出一个负样本筛选模型 KR-NSSM 来解决这个问题。我们的方法包括两个步骤: 初步筛选的精确 K 均值和进一步筛选的基于Rocchio分类的步骤。与原始的 K 均值算法和 Rocchio 算法相比,我们采用 HMDD V2.0中实验证实的 miRNA-疾病关联对作为阳性样本进行更准确的分类。KR-NSSM 的消融试验表明,将两种方法结合起来可以提高预测精度。
基于五折交叉验证的六个经典分类器和五个众所周知的预测模型的实验结果证明,使用 KR-NSSM 获得的阴性样品可以显着提高 miRNA-疾病关联预测的准确性。这是因为我们在 KR-NSSM 整合了两个半监督算法,这样就可以选择更可靠的负样本。同时,基于同样的原理,KR-NSSM 也可以筛选出一定数量的可靠阳性样品。一些选定的阳性样本由现有数据库进行验证。实验证明了我们方法的有效性。由于生物信息学领域存在更多的关联预测,如药物靶标[36] ,药物疾病[37]和 lncRNA 疾病[38] ,并且在这些情况下不能获得阴性样品。在有监督的方法中,还需要选择可靠的阴性样本进行关联预测。我们认为 KR-NSSM 方法可以广泛应用于这些阴性样本选择领域。
4.方法(Methods)
4.1.基准数据集(Benchmark dataset)
我们研究中使用的基准数据集从参考文献[26]下载,其中已知的 miRNA-疾病关联从 HMDD V2.0[39]获得。这些 miRNA 与疾病的关联被认为是阳性样本。参考文献[40]中计算的 miRNA 功能相似性得分被认为是 miRNA-miRNA 的相似性。根据基于 MeSH 数据库(http:// www. ncbi. nlm. nih. gov/)的语义值计算的疾病-疾病相似度。我们最终收到5430个 miRNA 疾病关联,包括495个 miRNA 和383个疾病。
4.2.方法概述(Method overview)
4.2.1.特征向量的构造(Construction of feature vectors)
我们构建特征向量以表示 miRNA 疾病关联如下: 首先,我们获得由383个疾病相似性评分组成的383维向量以表示每种疾病,以及由495个 miRNA 相似性评分组成的495维向量以表示每个 miRNA。然后,我们用由383个疾病相似性评分和495个 miRNA 相似性评分组成的878维特征向量表示每个样本。如方程(1) :
其中(f1,f2,⋯⋯ ,f495)表示495个 miRNA 相似性得分,并且(f496,⋯⋯ ,f878)表示383个疾病相似性得分。在这项研究中,我们把实验验证的 miRNA 疾病关联作为阳性样本,未知的 miRNA 疾病关联作为未标记样本。相应地,P 和 U 用来表示阳性样本集和未标记样本集。
4.2.2.KR‑NSSM
受以往研究[32,33,41]的启发,我们提出了一种阴性样本筛选模型 KR-NSSM。KR-NSSM 的工作流程如图3所示。将 SS-Kmeans 算法和 Rocchio 分类算法相结合,构建了 KR-NSSM 的核心框架。采用 SS-Kmeans 方法对未标记样本进行初步筛选,然后采用 Rocchio 分类法对 SS-Kmeans 方法的结果进行进一步筛选。
4.2.3.SS‑Kmeans
在 KR-NSSM 的第一部分,我们使用一个改进的 K-means 算法,SS-Kmeans [32]进行筛选。与传统的无监督 K- means 算法不同,SS-Kmeans 算法同时使用标记样本和未标记样本的信息。首先分别生成正样本集 P 和未标记样本集 U 的质心。正样本的质心由 P 的所有特征向量生成,由方程(2)计算。
其中 m 是阳性样本的数量, 表示第 i 个阳性样本。同样,样本集 U 用于生成,是可靠的负样本的质心,计算方法如下:
其中 表示未标记的样本,n 表示未标记的样本数目。然后我们比较每个未标记样本 和 的余弦距离如下:
其中 k (= 1或2)分别代表或 。根据余弦距离的数值,未标记的样本可分为可能呈阳性的样本集1(LP1)及可能呈阴性的样本集1(LN1)。
在第三步中,我们使用 LP1和 LN1来获得新的质心,我们将它们分别表示为 。根据方程(2)和方程(3)计算新的质心。我们使用进一步分类。我们采用以下欧几里得度量来衡量相似程度:
我们重复这些步骤,直到最新的质心稳定下来。最终,我们在 SS-Kmeans 中得到了可能的正样本集(LP1)和可能的负样本集(LN1)。
4.2.4.Rocchio classification
在 KR-NSSM 的第二部分,我们使用 Rocchio 分类[33]进一步筛选 SS-Kmeans 的初步结果。Rocchio 分类的核心目标是生成两个原型向量,分别代表阳性样本集和阴性样本集。更具体地说,Rocchio分类可细分为两种 rocchio1 和 rocchio2 。
在 Rocchio 分类的第一步中,P被认为是阳性样本集,我们选择使用实验证实的 miRNA-疾病关联作为 P。U被认为是阴性样本集,并且我们选择使用 LN1(从 SS-Kmeans 获得的可能的阴性样本)作为 U。原型向量 分别由方程(6)和(7)计算。
其中 | P | 和 | U | 是相应集合中的样本数。是 的二范数。 和 调整了阳性样本和阴性样本的相对影响,分别设为 16 和 4 。
然后,根据样本对原型向量的余弦距离,将 LN1中的样本进行分类。如果阳性原型向量与未标记样本之间的相似性小于阴性原型向量之间的相似性,则未标记样本将被归类为可靠的阴性样本。否则,一个可靠的阳性样本。最终,我们可以形成可靠的阴性样本集2 LN2。
然而,Rocchio1仍然可能出现分类错误[33]。为了解决这个问题,我们建议使用 Rocchio2。在 rocchio2中,使用 k-means 算法将 LN2分成多个子集,即。对于每个子集,P 将与它们组合形成一对数据集。用方程(8)(9)计算原型向量。
其中表示原型向量的 第 j 对。在这项研究中,我们使用 K- means将 LN2分成3个子集。对于 LN2中的每个样本,我们计算它与相应对原型向量之间的余弦距离。如果样本与阴性原型向量 的相似性大于与阳性原型向量 的相似性,我们认为它是一个可靠的阴性样本。