单细胞测序之基本的数据处理基本流程

参考文献：

Armand EJ, Li J, Xie F, Luo C, Mukamel EA. Single-Cell Sequencing of Brain Cell Transcriptomes and Epigenomes. Neuron. 2021 Jan 6;109(1):11-26.doi: 10.1016/j.neuron.2020.12.010. PMID: 33412093; PMCID: PMC7808568.

Amezquita, R.A., Lun, A.T.L., Becht, E. et al. Orchestrating single-cell analysis with Bioconductor. Nat Methods 17, 137–145 (2020). https://doi.org/10.1038/s41592-019-0654-x（链接：http://bioconductor.org/books/release/OSCA/index.html）

单细胞测序的数据集是一个高维的矩阵（含有诸多行和诸多列）。所以与一般的bulk 测序相比，其对于处理算法和工具的要求更高。之前在bulk测序分析中使用的一些软件方法，不再适用于单细胞测序。而且单细胞测序数据的特点又进一步使得我们可以从中挖掘出常规的bulk测序所不能得到的信息。也因此显示出了单细胞测序技术产生发展的必要性。

在本文就结合自己对这个技术的理解，梳理目前单细胞测序的一般流程及其结果。

后面我们会结合具体的数据，对该操作流程的每一个步骤作进一步的理解。

一、质控、比对，定量（上游的操作）

首先检查测序reads的质量（用fastqc）。对测序质量不好的数据进行剔除处理。（这个质量不好指的是什么样的一种情况呢？比如？）

然后将测序得到的reads匹配到参考基因组上（用bowtie软件），如果reads能够匹配到基因组上，那匹配到的是什么序列？（匹配之后期望得到的结果是什么？需要组装吗？我好像在概念上和基因组的组装那部分搞混了？）

在这个过程中有必要通过设定一定的阈值，移除一些低质量的细胞或者reads。

可能存在的pitfalls（隐患）：（1）建库的低复杂性：RNA/DNA捕获效率低下、线粒体RNA高度污染、DNA甲基化分析中亚硫酸氢盐转化不完全。

这一步处理得到的是一个行为基因，列为细胞的二维矩阵。

二、特征选择和降维

简单的描述一下，我对于特征选择的理解。我觉得特征选择就是从已有的特征空间中选择最具有代表性的特征。这个代表性怎样去解释呢，就相当于可以明显的区分两类样本的特征。举个例子，能够明显的区分黄豆和黑豆的特征是什么？颜色。

在得到的二维矩阵中，特征空间就是合格表达的基因（非常多）。然后特征之间的相关性（基因表达之间的相关性）降低了数据内在的特征的数量。

通过特征提取与特征选择方法，可以简化后续的数据分析。

主要的步骤包括：（1）低表达量的、低变异的特征去除。（2）线性的投射（PCA）将上千个维度降低到50~100个特征（具体的数目自己可以设定）。

三、减少数据的稀疏性

单细胞测序所得到的矩阵是一种比较稀疏的矩阵（即大多数的基因的表达值都为0）。

数据扩散（data diffusion）的预处理可以帮助对抗稀疏性，从而可以提高可视化和聚类分析的效果。

四、双峰（Doublets）

双峰（doublets）：错误的将两个或者多个细胞的数据整合在一起（存在的物理条件：在同一个液滴中捕获的细胞或者多个细胞偶然间用同一个barcode【参见具体的实验过程】）。

虽然数据污染在某种程度上可以被计算手段移除，但是由于真实的细胞类型的数量是未知的，所以我们对于结果应该保持谨慎。

通过单细胞测序得到的细胞的类型需要被其他的技术手段辅助证实，如空间转录组。

五、可视化

有用的可视化将细胞嵌入到二维或三维空间中，优化细胞的布局，使其相互距离接近高维数据的距离。

但是这种地维化的处理并不一直是完美的，它们是高维数据扭曲且非独特性的展示。这种方法，只能用于探索，但是不能用于检验假设或者得出结论。

六、离散聚类与连续潜在因子

对于单细胞测序数据最简单的描述是以离散聚类或者是不同的分子标签的细胞群，譬如层次聚类。但是聚类分析本身并不提供对生成的细胞类型提供统计可靠性以及生物学真实性的证据。

在大脑发育的过程中出现连续的轨迹。轨迹或者伪时间分析尝试着去评估单细胞之间的连续的关系。有丝分裂后的神经元的连续梯度可以反映从椎板到皮层区域的空间分布或者是功能特性。能够识别神经元群体中连续的离散的变异的方法是当前研究的核心。

七、多套数据集之间的计算整合

要弄清楚的一个概念：

batch effects:与我们实验中感兴趣的因素无关的其它变量对实验结果产生的影响。比如，执行实验的人员，执行实验的时间。

有一些参数法的方法以及非参数化的方法可用于尽可能的过滤批次效应。

一些参数化的方法，如Seurat包中的近似典型相关分析（CCA），无负矩阵分解（NMF），将细胞从多个数据集中投影到一个共有的，低维的空间中，然后可以被直接的比较，聚类和分析。

非参数化的方法，如共同近邻（MNN）也可以将不同数据集之间的细胞连接起来。不需要学习普通空间中的线性或者非线性的嵌入。

这些技术将一个数据集中的细胞与另一个数据集之间的细胞紧密的匹配起来。

关于批次效应的更多的具体的处理方法，参见链接：https://www.plob.org/article/22574.html#:~:text=Batch%20effects%20are%20sub-groups%20of%20measurements%20that%20have,two%20technicians%20were%20responsible%20for%20different%20subsets%20

八、集群检验

对于类群的统计学显著性或者再现性的分析帮助定义适当的群集分辨率，提供一种客观的标准,解决张力（分散的趋势）与拉力（聚拢的趋势）之间的经典性矛盾。

严格的细胞类型可复制性测试使用从一个或多个数据集中学习到的细胞类型的转录组学特征来在一个独立的数据集中预测细胞的身份，提供量化匹配的统计分数。

表观基因组特征可以进一步验证细胞类型的差异，并有助于剖析它们的分子调控。

九、下游分析

识别细胞之间，样本之间或者不同的操作条件之间的差异表达基因。

但是不同的计算方法在预测差异表达之间有很大的不同。特异性适用于单细胞测序的计算方法不一定适用于bulk测序。

单细胞测序之基本的数据处理基本流程

猜你喜欢