面向单细胞RNA-seq数据插补及聚类方法研究

许俊林博士生答辩公告

浏览次数:175日期：2021-09-06编辑：研究生秘书

学位论文简介

单细胞RNA测序 (single-cell RNA-sequencing, scRNA-seq) 技术可以更好地帮助我们从更高的分辨率和时空结构上对生命进行解码，准确的反映细胞间的异质性。人体是由多种类型的细胞组成的一个极其复杂的个体。通过单细胞测序技术可以使得我们更加清晰地对人体疾病进行研究。然而，scRNA-seq数据具有海量、维度高和噪音大等特点，使得已有的传统的机器学习算法难以有效地处理和分析scRNA-seq数据。因此，发展高效的机器学习算法，对scRNA-seq数据进行处理和分析，对我们了解人体疾病的发病机制及其治疗具有重大意义。因此，在本文中，我们对scRNA-seq数据进行了深入研究，主要研究内容和创新工作如下：

scRNA-seq技术通过将一堆细胞精细到单细胞水平，为RNA-seq测序研究带来了新的领域。scRNA-seq技术提供了强大的工具，可确定成千上万个单个细胞的精确表达模式，破译细胞异质性和细胞亚群等。然而，由于各种技术噪声，例如，存在”缺失”事件 (即，过量的零计数)，scRNA-seq数据分析仍然具有挑战性。通过考虑细胞和基因之间的关联，我们提出了一种新颖的基于协作矩阵分解的方法，称为CMF-Impute，用于估算给定scRNA-seq数据表达矩阵的缺失项。我们测试了CMF-Impute模型，并将其与其他五种最新方法在六个流行的不同大小的真实scRNA-seq数据集和三个模拟数据集上进行了比较。CMF-Impute在缺失估算方面优于其他方法。
scRNA-seq技术是一项革命性的突破，它确定了单个细胞的精确基因表达并破译了细胞的异质性和亚群。但是，由于技术局限性，scRNA-seq数据比高通量RNA-seq数据更嘈杂，通常会导致传统的降维和可视化的方法效果不佳。在这里，我们提出了一种改进的变分自编码器方法 (称为scIVA)，用于降维和scRNA-seq数据的可视化分析。scIVA不仅结合了变分自编码器和高斯混合模型，还通过引入零膨胀 (Zero-inflated, ZI) 层来明确建模“缺失”事件，以获得scRNA-seq数据变化的低维表示。我们对10个scRNA-seq数据集进行了基准比较，结果显示，scIVA的效果优于其他五种最新的方法。此外，scIVA可以准确地捕获人类植入前胚胎发育的表达动态。
scRNA-seq数据分析中面临的主要挑战是日益增长的数据。在大型数据集中，鉴定细胞群体是非常困难的，因为许多现有的scRNA-seq聚类方法无法扩大规模来处理它们。此外，由于各种原因造成的批次效应 (即：批次之间系统性的基因表达差异) 也是目前迫切需要解决的问题之一。在涉及人体组织的研究中，批次效应是不可避免的，因为数据通常是在不同的时间生成的，并且批次效应可能混淆生物学差异。如果不能消除批次效应，将使下游分析复杂化并导致对结果的错误解释。因此，我们提出了一种基于图嵌入的深度聚类的scRNA-seq数据分析方法，称为scGEDC。scGEDC是一个有用的工具，可用于一系列基础分析任务，包括批次校正，可视化和聚类。实验结果表明scGEDC对每个任务实现了很高的准确性。

主要学术成果

Junlin Xu,Lijun Cai,Bo Liao,Wen Zhu,and Jialiang Yang. CMF-Impute:an accurate imputation tool for single-cell RNA-seq data. Bioinformatics, vol. 36, no. 10, pp. 3139-3147, 2020.（第一作者，中科院小类一区收录，IF 2021: 6.937，Top期刊）
Junlin Xu, Lijun Cai, Bo Liao, Wen Zhu, Peng Wang, Yajie Meng, Jidong Lang, Geng Tian and Jialiang Yang. Identifying Potential miRNAs–Disease Associations With Probabili ty Matrix Factorization. Frontiers in Genetics, vol. 10, 2019（第一作者，中科院SCI-3区收录，IF2021：4.599）
Lijun Cai, Changcheng Lu, Junlin Xu, Yajie Meng, Peng Wang, Xiangzheng Fu, Yansen Su. Drug repositioning based on the heterogeneous information fusion graph convolutional network. Briefings in Bioinformatics. （导师一作，本人第一通讯，中科院SCI-1区，，IF2021=11.622）
Junlin Xu, Wen Zhu, Lijun Cai, Bo Liao, Yajie Meng, Ju Xiang, Dawei Yuan, Geng Tian, Jialiang Yang. LRMCMDA: Predicting miRNA-disease association by integrating l ow-rank matrix completion with miRNA and disease similarity information. IEEE Access, vol. 8, pp. 80728-80738, 2020.（第一作者，中科院SCI-2区收录，IF2021：3.367）
Yajie Meng, Min Jin, Xianfang Tang, Junlin Xu. Drug repositioning based on similarity constrained probabilistic matrix factorization: COVID-19 as a case study[J]. Applied soft computing, 2021, 103: 107135.（本人最后通讯，中科院升级版SCI-1区收录，IF2021：6.725，Top期刊）
Xianfang Tang, Lijun Cai1, Yajie Meng, JunLin Xu, Changcheng Lu and Jialiang Yang. Indicator Regularized Non-Negative Matrix Factorization Method-Based Drug Repurposing for COVID-19[J]. Frontiers in Immunology, 2021, 11: 3824.（本人并列通讯，中科院SCI-2区收录，IF2021：7.561，Top期刊）
Lihong Peng, Xiongfei Tian, Geng Tian, Junlin Xu, Xin Huang, Yanbin Weng, Jialiang Yang and Liqian Zhou. Single-cell RNA-seq clustering: datasets, models, and algorithms[J]. RNA biology, 2020, 17(6): 765-783.（第四作者，中科院SCI-2区收录，IF2021：4.652）
Yuhua Yao, Binbin Ji, Sihong Shi, Junlin Xu, Xiaofang Xiao, Enchao Yu, Bo Liao,Jialiang Yang. [J]. IEEE Access, 2019, 8: 16517-16527.（第四作者，中科院SCI-2区收录，IF2021：3.367）
Wen Li, Shulin Wang, Junlin Xu, Guo Mao, Geng Tian and Jialiang YangInferring Latent Disease-lncRNA Associations by Faster Matrix Completion on a Heterogeneous Network[J]. Frontiers in genetics, 2019, 10: 769.（第三作者，中科院SCI-3区收录，IF2021：4.599）
Xiaofang Xiao, Wen Zhu, Bo Liao, Junlin Xu, Changlong Gu, Binbin Ji, Yuhua Yao, Lihong Peng and Jialiang Yang. BPLLDA: Predicting lncRNA-Disease Associations Based on Simple Paths With Limited Lengths in a Heterogeneous Network[J]. Frontiers in Genetics, 2018, 9:411.（第四作者，中科院SCI-3区收录，IF2021：4.599）

面向单细胞RNA-seq数据插补及聚类方法研究

猜你喜欢