基因富集

测序数据覆盖度
什么叫做测序数据的覆盖度(coverage),这是一个很好的问题。在书中,覆盖率简单定义为:
c = 测序的碱基数 / 基因组总大小

一开始我觉得这个公式其实是计算测序的平均深度。但是后面继续谈到覆盖度不是意味着所有基因组都被覆盖了,而是覆盖率越高,基因组未被检测到的基因越少。根据经验公式,碱基丢失率:P = exp(-C)。假设测序深度10x,基因组长度为20k,那么丢失exp(-10)*20000,差不多是一个碱基,如果是人类基因组会是136199个碱基。
当然理论覆盖度并不代表现实情况,由于基因组的复杂性,DNA可能也不是真的随机打断,甚至实验protocol还有一定的偏向性。

尽可能增加测序深度
尽管有一些基因组部分很难被测序,但是我们其实清楚这些区域难以测序的原因
基因组的高度重复区域需要更长的读长才能被发现
基因组不同区域可能会产生相同的read,你需要更长的读长。

科学家喜欢用“可进入(accessible)", “可比对(mappable)”, "有效(effective)"的基因组来指明基因组哪些区域很容易被研究。

杂合子
单倍型
等位基因
旁系同源基因也可能是多拷贝位点

富集分析必知的几个概念:

通路(pathway): 共同完成特定生物学过程的所有基因
基因集(gene set): 一组相关基因。通路基因集包括一个通路里的所有基因。基因集可以按照不同作用进行组合,例如细胞定位相关基因,某个代谢通路的基因
目标基因表: 组学分析后输出给通路分析的一组基因
排序基因表:一些组学分析中,基因还可以按照某个打分进行排序,例如RNA-seq后的p值,倍数变化等,能够为通路分析提供更多的信息。对于一个富集的通路而言,通路里的基因会聚集在排序表的一端,得分累加值会比通路基因集随机在排序表中出现的得分高。
通路富集分析:一种统计学方法,用于找到基因表或目标基因表所显著性富集的通路。
多重试验校正:如果独立进行了多次的富集分析,那么每次富集分析都会得到一个p值。为了降低假阳性,需要进行多重试验校正对每个单独富集分析试验中的p值进行调整。
前临界点基因(leading-edge gene): 在GSEA分析中,导致通路富集的一组基因。

离群值
离群样本指的是和其他样本差异过大的样本,一般是实验问题或者技术问题造成,比如说污染或者混样。当然,也有可能是极端生物学现象,比如说肿瘤样本有异常扩增的表型。我们可以用PCA或者无监督聚类的方式找到这种离群值。通路分析可以在有无离群值的情况下的进行,确保分析结果的鲁棒性。系统性移除离群值有助于降低实验的变异度。
试验敏感度
一些实验方法的敏感度会发生变化。举个例子,对于基因表达定量分析,显然测序深度越高,重复数越多,得到的差异表达基因也就越可靠。虽然大部分人没有钱测5个样本,但是3个还得保证吧。如果你研究可变剪切,那么对你的测序深度要求就更高了。

GO富集分析小示例
dat=data.frame(name=LETTERS[1:21],number=abs(rnorm(21)*10),type=c(rep(“BP”,7),rep(“CC”,7),rep(“MF”,7)))#建立一个21行的数据框,设置type
library(ggplot2)
ggplot(dat,aes(x=name,y=number,fill=type))+geom_bar(stat=“identity”)+coord_flip()#aes 就是定义映射(x,y之间的关系,x,y轴)。
#coord_flip()坐标反转
GO富集介绍:

每个基因都会对应有一个或多个GO term(也就是GO功能)。
富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。再比如,我想知道与整个广东省相比,深圳市的大学生是不是显著更多(“大学生”就相当于深圳市民的其中一个GO term)。那么前景就是深圳市的人口,背景就是广东省的人口,每个个体都会有一个标签(如大学生、中学生、小学生等)。

为什么做基因富集分析?

我们在得到相关基因的表达后,做基因差异分析得到了好多差异基因(p值小的,也就是差异很显著的基因),做后续研究时不可能将所有差异基因都拿来做实验验证或者拿出来说明问题,这时候就需要挑选了,那怎么挑选呢?或者说拿什么标准来衡量我挑选的基因是否可信,有一个统一的挑选标准吗?

这就是富集分析需要做的,能够给出的结果。

1.GO分析

根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。

GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

2.Pathway分析

根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。

pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。

同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。

猜你喜欢

转载自blog.csdn.net/qq_39306047/article/details/93891523