単一セルのシーケンシング技術の発展に伴い、各研究実験またはアッセイ中の細胞の数が大幅に増加しました。今では多くの単一細胞研究、数百を生成するために至るまで、細胞の数は数十万人、またはそれ以上を生成しました。このうち、細胞サブタイプ(細胞サブタイプまたは細胞亜集団)の同定は、単一のセル配列決定技術は、アプリケーションのための非常に重要な基礎です。しかし、単一細胞配列データので、典型的には細胞の多くが含まれ、各セル内の遺伝子の数は数万であってもよく、したがって、複雑なデータの単一セルの高次元のデータ列です。
オーダー様々なプロセスの効果的単一細胞配列解析データを、特に細胞サブセットを識別するためには、通常我々は、単一のセルシーケンシングデータの次元削減する必要があります。方法細胞寸法縮小配列決定データは、2つのカテゴリ(:AIPuFuBioマイクロチャネルパブリック数)に分割することができます。
1、次元削減(次元削減)。次元削減の方法は、通常、最適化することにより、データ保持の元の高次元データの重要な特性、低次元空間に投影し、このような二次元または三次元の印象データの形式によってその後あります。
一般的に使用される次元削減方法は以下のとおりです。
1)PCA(成分原理分析)、主成分分析、線形次元削減法。
2)SNE-Tそのネイバーを埋め込む(T-分散確率)は、非線形次元削減法です。
3)UMAP(均一マニホールド近似と投影) (Bechtら。、2018、ナット。Biotechnol。)、
4)scvis (Ding et al., 2018, Nat. Commun.)
其中PCA和t-SNE被广泛应用于已发表的单细胞测序相关文章中。特别注意,PCA和t-SNE是降维的方法,并不是聚类方法。
2、Feature selection(特征选择),主要是通过去除信息含量少的基因而保留信息含量最多的基因来降低数据的维度。
常用的Feature selection的方法有:
1)基于先验信息的方法(如已知细胞的亚型)。比如通过SCDE软件鉴定已知不同细胞亚型间的差异表达基因,然后再基于差异表达基因来聚类分析等。
2)非监督方法。又可细分为:
(i) 基于highly variable genes (HVG) ;
(ii) 基于spike-in,如scLVM (Buettner et al., 2015)和BASiCS (Vallejos et al., 2015)等;
(iii)基于 dropout,如M3Drop (Andrews and Hemberg, 2018)。
单细胞测序数据细胞亚型鉴定方法(更多请见AIPuFu:www.aipufu.com)
1、监督的方法。比如基于特定细胞亚型的已知marker基因来聚类分析。
2、非监督的方法(unsupervised clustering)。又可细分为:
(i) k-means,通常可结合PCA和t-SNE等来使用;
(ii) hierarchical clustering,运行速度比K-means要慢;
(iii) density-based clustering,需要基于大样本才能提高聚类的精度;
(iv) graph-based clustering,是density-based clustering的一个延伸,可以应用于上百万的细胞数量。
因此,从上面的图中可知,不同的聚类方法所具备的特点可能不一样,有些聚类方法运行时间短,有些聚类方法的结果更准确。可根据具体的数据情况,选择相应的软件。建议选择最新发表、且发表在高质量期刊的软件哦~(更多请见AIPuFu:www.aipufu.com)