PAGA:结合轨迹推断和聚类的工具

fig0

前置内容

为什么要做拟时分析
拟时分析并不是真正意义上的时间变化,而是将表达矩阵中不同细胞间连续变化的路径用低维坐标展示(发育路径),根据所得路径,推断发育过程中的潜在时间关系(pseudo time),根据伪时间,刻画基因表达的动态变化,进一步鉴定细胞发育方向,起止状态以及到各个终态的概率。

单细胞测序就像是给一群细胞拍了一张照,这一瞬间,不同细胞处于不同的生化状态。(就像照了一群花,有的还没开,有的开花了,有的已经开过了,我们要在这些状态中找到时间发展顺序)。

发育路径推断方法的比较
来源于2019年nature biotechnology的"A comparison of single-cell trajectory inference methods",该篇文章用45种不同的TI方法在300多个数据集上比较了TI的效果。并且发现,轨迹子结构大概可以总结为以下几种形式:
fig1
扩散伪时间(diffusion pseudo time,DPT)
对单细胞表达矩阵使用扩散映射进行处理(回顾生物计算工具-Diffusion Map扩散映射),降维至2维或者3维进行可视化。注意,我们不一定要选择最前面的特征值对应的行,可以选择不同的行组合并进行可视化,总之要得到符合生物学意义的可视化结果。

假设轨迹为树:Monocle2
fig2
Monocle 2 自动学习单细胞轨迹(trajectories)和分支点(branch points)。每个细胞被表示为高维空间(x)中的一个点,其中每个维度对应于一个有序基因的表达水平(基因表达量)。通过PCA等降维方法将数据投影到低维空间(z),Monocle 2 在使用 k-means 聚类自动选择的一组质心(第3个图中的菱形)上构建生成树(spanning tree)。然后将细胞移向最近的树顶点,再次聚类更新质心,学习新的生成树,并迭代该过程,直到树和细胞收敛。然后,选择一个顶点作为“root”,每个细胞的伪时间计算需要沿着树到root的距离,并根据树的结构自动得到分支(branch points)。


连通图:回顾其他算法-Dijkstra

生成树:对连通图进行遍历,过程中所经过的边和顶点的组合可看做是一棵普通树,通常称为生成树。连通图中的生成树必须满足以下 2 个条件:

  • 包含连通图中所有的顶点;
  • 任意两顶点之间有且仅有一条通路;

当数据量很大时,Monocle2经常会错误把本来不在同样轨迹上的细胞认为是处于同一个轨迹上,所以后面开始提出PAGA。PAGA是一种基于分区的图抽象(Partition-based graph abstraction)方法。

更合理的方法:RNA velocity
拟时分析的本质是包含一条具有起点和终点的时间轴的细胞轨迹。时间轴的构建是在细胞轨迹的基础上,依据生物学先验知识来确定起点和终点完成的。细胞轨迹的构建则是通过细胞的表达量特征来完成的,主流方法有两种:

  • 基于基因表达量的树图方法,经典方法是monocle2和PAGA,以基因表达量动态变化来构建细胞轨迹;
  • 基因的降解趋势和合成趋势,也就是 RNA velocity。

RNA velocity的与众不同就在于它将单细胞转录组不常用的RNA剪接数据也利用了起来,通过细胞中完成剪接的mRNA和未完成剪接的mRNA的比例来预估mRNA的上调和下调趋势。如果细胞中mRNA的合成速率和降解速率是一样的,那么,mRNA的总量则保持不变,意味着对应基因的表达量也就是恒定的,而细胞的功能也趋于稳定,换言之,细胞保持现有特征而不发生分化。

反之,mRNA的合成速率和降解速率不一样,细胞命运会发生转变,合成或降解比例的导数也就代表着mRNA的变化速度。这种变化速度的生物学解释就是细胞从状态A转换到状态B的分化速度。以上,既是RNA velocity的基础分析思想,也是名字的由来。

RNA velocity的分析结果是细胞分化的瞬时时间向量,也就是说,它代表的是细胞在某一刻的潜在分化方向,而不是一条连贯的细胞轨迹。这意味着RNA velocity的结果不需要指定起点和终点。相反,研究者可以从向量结果中读出分化轨迹。这对拟时分析来说是个创新性的改变,为新的分化轨迹的挖掘提供了全新的视野。

背景

单细胞RNA-seq为数千个单细胞的全面分子分析提供了前所未有的机会,预计将对生物医学研究产生重大影响。然而,细胞异质性的算法分析仍然面临着根本性的挑战,例如,如何解释细胞间的变化。聚类假设数据由生物学上不同的簇组成;推断细胞的伪时间顺序或轨迹假设数据位于连接的流形上,并用流形上的连续变量(distance)标记细胞。聚类是大多数单细胞数据分析的基础,轨迹分析可以更好地解释细胞发育的连续过程。在PAGA中,我们统一了聚类和轨迹分析。

单细胞实验中分解异质性的一个例子涉及来自复杂细胞分化过程的数据。然而,使用伪时间分析这些数据通常是不完全采样的问题。因此,实验数据不符合真实流形,将数据建模为连续树结构(这是现有算法的基础)意义不大(作者认为Monocle2意义不大)。此外,它们依赖于基于特征空间的簇间距离,如聚类质心的欧几里德距离。然而,这种距离度量仅在局部尺度上量化细胞的生物相似性。

基于分区的图抽象(Partition-based graph abstraction,PAGA)通过生成细胞的graph-like maps来解决这些基本问题,这些maps以多种分辨率在数据中保持连续和断开的结构。PAGA的数据驱动公式允许在不同的数据集上有力地重建分支,并首次能够重建整个成年动物的谱系关系。此外,我们还证明了PAGA初始化的流形学习算法收敛速度更快,生成的embedding更加符合高维数据的全局拓扑,并引入了基于熵的度量来量化这种忠诚度(faithfulness)。最后,我们展示了PAGA如何从RNA velocity中提取过渡图(transition graph),并与以前的轨迹推断算法进行了比较。鉴于此,PAGA提供了一种图抽象方法,该方法适用于推导 noisy kNN-like graph 的可解释抽象,这些图通常用于表示scRNA序列数据中产生的流形。

结果

PAGA映射离散断开连接和连续连接的细胞异质性

已建立的流形学习技术和单细胞数据分析技术通常都会先将数据表示为单细胞的邻域图 G = ( V , E ) G=(V,E) G=(V,E) V V V中的每个节点对应于一个细胞, E E E中的每条边表示邻域关系(见图1)。然而,噪声的复杂性使得我们很难追踪从root细胞到不同命运的生物过程,也很难确定细胞群实际上是连接的还是断开的。此外,追踪单细胞的孤立路径来陈述生物过程的统计能力太小,无法达到可接受的置信水平。

我们通过开发一个细胞群组连接性的统计模型来解决这些问题,我们通过图划分或通过聚类或实验注释来确定。这允许我们生成一个更简单的PAGA图 G ∗ G∗ G(图1),其节点对应于细胞组,其边权重量化组之间的连接。如果组间边的数量超过随机分配下预期的组间边数量,则统计模型认为组是连接的。连接强度可以解释为存在实际连接的置信度,并允许丢弃虚假的噪声相关连接。 G G G表示单细胞分辨率下的数据连接结构,而PAGA图 G ∗ G∗ G 以选定的更粗略的分区分辨率表示数据的连接结构,并允许识别数据的连接区域和断开连接的区域。沿 G ∗ G* G中节点的路径是指穿过 G G G中相应细胞群的单细胞路径集合。通过对此类单细胞路径集合进行平均,可以实现以对伪边鲁棒的方式跟踪假设的生物过程,从祖细胞(progenitor)到其命运,并提供统计能力,并且与细胞生物学轨迹的基本假设一致。注意,通过改变分区的分辨率,PAGA以多个分辨率生成图,从而实现数据的分层探索。

为了在单细胞分辨率下追踪基因动力学,我们将现有的基于随机行走的距离度量扩展到解释断开图的实际情况。通过遵循图 G ∗ G* G中的高置信度路径并根据各组细胞与祖细胞的距离 d d d对路径中各组细胞进行排序,我们以单细胞分辨率追踪基因变化(图1)。因此,PAGA通过提供坐标系 ( G ∗ , d ) (G∗, d) (G,d) 使我们能够在保留数据拓扑结构的同时探索数据的变化。因此,PAGA可以被视为拓扑数据分析的一种易于解释且稳健的方法。


PAGA是邻域图的更简洁形式:图摘要或者图抽象;


fig3

  • 图1:基于分区的图抽象生成单细胞的拓扑映射。通过选择合适的低维表示和相关的距离度量计算邻域关系后,高维基因表达数据被表示为kNN graph(回顾其他算法-建立在流形上的降维UMAP)。在大多数论文中,我们使用基于PCA的表示和欧氏距离。kNN图以所需的分辨率进行分区,其中分区表示有连接的细胞组。我们通常使用Louvain算法,但是,也可以通过任何其他方式获得分区(即聚类)。PAGA图是通过将一个节点与每个分区相关联,并通过表示分区之间连通性的统计度量的加权边连接每个节点而获得的,我们在本文中介绍了这一点。通过丢弃低权重的伪边,PAGA图以选定的分辨率显示数据的拓扑,并显示其连接和断开的区域。将PAGA图中的高置信度路径与单细胞图上基于随机游走的距离度量相结合,我们根据每个分区中的细胞与根细胞的距离对其进行排序。然后,PAGA路径(PAGA path)对通过相应细胞组的所有单细胞路径进行平均。在计算PAGA path过程中允许以单细胞分辨率沿着复杂的轨迹跟踪基因表达变化。

PAGA-initialized学习流形并产生基于拓扑的单细胞embedding

PAGA的粗分辨率embedding可用于初始化已建立的流形学习和图绘制算法,如UMAP。在本文中,该策略用于生成单细胞embedding。与以前算法的结果相比,PAGA初始化的单细胞embedding符合全局拓扑,这大大提高了它们的可解释性。为了量化这一说法,我们从分类的角度对embedding算法进行了研究,并开发了一个代价函数 K L g e o KL_{geo} KLgeo(Box1),该函数通过在高维和embedding空间中分别沿数据流形的表示合并geodesic距离(两点之间的最短距离)来获取对全局拓扑的忠实性。用PAGA初始化的流形学习相对于流形学习中已提出的代价函数,收敛速度大约快六倍。


Box1
从embedding算法的分类角度出发,通过使用加权Kullback-Leibler散度比较高维和嵌入空间中边的分布 P P P Q Q Q,我们量化了embedding对高维数据全局拓扑的忠实程度:
fig4
其中, p e , q e p_{e},q_{e} pe,qe分别是高维空间和embedding空间中kNN graph中存在边的概率。类似的, d e p d^{p}_{e} dep d e q d^{q}_{e} deq分别表示这些空间中的流形上的测地距离基于随机游走的估计量。 E f c E_{fc} Efc表示全连通图的边集。

Random Walk是一种可重复访问已访问节点的深度优先遍历算法。给定当前访问起始节点,从其邻居中随机采样节点作为下一个访问节点,重复此过程,直到访问序列长度满足预设条件。随机游走可以无监督学习节点的embedding


PAGA在与造血(hematopoiesis)相关的数据集中持续预测发育轨迹和基因表达变化

造血(hematopoiesis)是涉及干细胞(stem cell)向多种细胞命运分化的最具广泛特征的系统之一,这为PAGA应用于复杂的流形提供了理想的平台。我们将PAGA应用于该系统的模拟数据和三个实验数据集:使用MARS-seq测量的2730个细胞,使用Smart-seq2测量的1654个细胞,以及10×测量的44802个细胞。这些数据涵盖了干细胞向细胞命运的分化,包括红细胞erythrocytes、巨核细胞megakaryocytes、中性粒细胞neutrophils、单核细胞monocytes、嗜碱性粒细胞basophils和淋巴细胞lymphocytes。

PAGA图(图2)捕捉了已知的造血特征,例如megakaryocyte和erythroid progenitors的接近性以及monocyte和neutrophil progenitors之间的紧密联系。嗜碱性粒细胞basophils的起源正在争论中。研究表明,嗜碱性粒细胞来源是:basophil-neutrophil-monocyte progenitor ,或者最近研究发现:erythroid-megakaryocyte-basophil progenitor。三个实验数据集的PAGA图突出了这种模糊发现。Paul等人的数据集属于前一类,Nestorowa等人的属于后一类,Dahlin等人拥有迄今为止最高的细胞数量和最密集的采样,这使我们能够看到这两种轨迹。除了Paul等人和Nestorowa等人的采样不足导致的这种模糊性之外,即使在非常不同的实验协议和非常不同的细胞数情况下,PAGA图也显示了三个数据集之间的一致拓扑结构

除了细胞亚群之间一致的拓扑结构之外,我们还发现所有数据集中一致的连续基因表达变化。我们通过PAGA图沿erythroid轨迹观察erythroid成熟标记基因(Gata2、Gata1、Klf1、Epor和Hba-a2)的变化,观察到这些基因的激活顺序与已知行为一致。中性粒细胞neutrophil标记基因(Elane、Ceppe、a n和Gfi1)和单核细胞monocyte标记基因(Irf8、Csf1r、a n和Ctsg)分别在中性粒细胞和单核细胞轨迹的末端激活。可见PAGA能够捕获多系造血分化的动态转录过程,而以前的算法往往无法产生有意义的结果。
fig5

  • 图2:PAGA预测造血数据集的发育轨迹和基因表达变化。这三列对应于PAGA初始化的单细胞embedding、PAGA图和PAGA路径上的基因变化。四行面板分别对应于模拟数据和Paul等人、Nestorowa等人和Dahlin等人的实验室数据。最后一行的箭头标记了嗜碱性粒细胞basophil的两条轨迹。我们观察到所有数据集中5个erythroid、3个neutrophil和3个monocyte标记基因的PAGA图的一致拓扑结构和PAGA路径上一致的基因表达变化。细胞类型缩写如下:干细胞stem cell为Stem,红细胞erythrocytes为Ery,巨核细胞megakaryocytes为Mk,中性粒细胞neutrophils为Neu,单核细胞monocytes为Mo,嗜碱性粒细胞basophils为Baso,B细胞为B细胞,淋巴细胞lymphocytes为Lymph。

PAGA以多种分辨率绘制整个动物(whole animals)的单细胞数据

最近,Plass等人利用21612个细胞的scRNA序列数据上的PAGA,重建了整个成年动物施密特扁形虫(flatworm Schmidtea mediterranea)的第一个细胞谱系。我们展示了如何使用PAGA生成多分辨率的数据图(图3a)。与最先进的流形学习相比,每个图都保留了数据的拓扑结构,其中连接的组织(tissue)类型显示为断开连接或重叠。
fig6

  • 图3:PAGA应用于整个成年动物。
  • a:PAGA图显示了施密特扁形虫(flatworm Schmidtea mediterranea)在组织、细胞类型和单细胞分辨率下的数据。我们通过 cell-type PAGA 图来初始化单细胞embedding,从而得到了一个拓扑意义上的embedding。
  • b:针对相同数据建立的流形学习违反了拓扑结构。
  • c和d:用PAGA结合两个示例谱系的RNA velocity:表皮epidermis和肌肉muscle。我们显示了 RNA velocity 箭头、表示拓扑信息的标准PAGA图(仅表皮)和表示RNA速度信息的PAGA图(即对RNA信息进行图抽象)。

PAGA从RNA velocity中提取信息

尽管PAGA图中的连接通常对应于实际的生物轨迹,但情况并非总是如此。这是PAGA应用于kNN图的结果,kNN图仅包含有关数据拓扑的信息。最近,有人建议也考虑基于RNA velocity存储细胞转化信息的有向图。为了包含这些额外的信息,这可以为实际的生物转变提供进一步的证据,我们将无向PAGA连通性度量扩展到此类有向图,并使用它来确定PAGA图中的边的方向(图3c)。在有向情况下,我们通常从RNA velocity中抽象出一个“速度图”,我们考虑了箭头的比率,这些箭头在每对分区中输入和输出,以量化分区之间的过渡趋势。

猜你喜欢

转载自blog.csdn.net/qq_40943760/article/details/125052238