「nature protocols」组学数据的通路富集分析和可视化: g:Profiler, GSEA, Cytoscape 和 EnrichmentMap...

nature protocols上发了一篇文章，题目为"Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap", 手把手将哪些只会实验的人如何通过点击鼠标的方式学会通路分析，挖掘他们高通量测序结果，包括转录组, 基因组和蛋白组学。

文章用到的软件为：

g:Profiler (https://biit.cs.ut.ee/gprofiler/)
GSEA (http://software.broadinstitute.org/gsea/)
Cytoscape (http://www.cytoscape.org/)
EnrichmentMap (http://www.baderlab.org/Software/EnrichmentMap)

基本流程为：

分析流程

文章的PDF版本一共有38页，基本上20多页内容都是讲如何通过鼠标点点点的方式实现富集分析，我翻译了其中对我有用的部分。

概念定义

富集分析必知的几个概念：

通路(pathway): 共同完成特定生物学过程的所有基因
基因集(gene set): 一组相关基因。通路基因集包括一个通路里的所有基因。基因集可以按照不同作用进行组合，例如细胞定位相关基因，某个代谢通路的基因
目标基因表: 组学分析后输出给通路分析的一组基因
排序基因表：一些组学分析中，基因还可以按照某个打分进行排序，例如RNA-seq后的p值，倍数变化等，能够为通路分析提供更多的信息。对于一个富集的通路而言，通路里的基因会聚集在排序表的一端，得分累加值会比通路基因集随机在排序表中出现的得分高。
通路富集分析：一种统计学方法，用于找到基因表或目标基因表所显著性富集的通路。
多重试验校正：如果独立进行了多次的富集分析，那么每次富集分析都会得到一个p值。为了降低假阳性，需要进行多重试验校正对每个单独富集分析试验中的p值进行调整。
前临界点基因(leading-edge gene): 在GSEA分析中，导致通路富集的一组基因。

富集分析资源

基因集数据库:

Gene Ontology(GO):
Molecular Signatures Database(MSigDB): GSEA工作组维护的基因集数据库，人类用的比较多，尤其是hallmakr基因集。

生化通路数据库

Reactome
Panther
NetPath
HumanCyc
National Cancer Institute Pathway Interaction Database
KEGG

通路元数据库

Pathway Common
WikiPathways

富集分析的优势和局限性

相对于只分析单个基因，转录本或蛋白，通路富集分析有如下几个优点：

整合了更多的数据，在统计上更加可靠
数据降维，将原本上千或上万的基因或基因组区域合并成更小的通路或者系统
结果更加容易解读
不同来源的数据更加容易比较
能够将不同类型的数据（RNA, DNA或蛋白）投影到同类型的通路上

然而通路富集分析也存在缺陷:

你需要保证用于富集分析的基因集有很强的生物学信号。如果一个通路里只有几个基因比较重要，那么富集分析就失效了。
通路通常是人为定义，因此不同的基因集数据库可能存在冲突
一些统计学方法，例如Fisher精确试验在统计学上更容易找到宽泛的通路，你需要在分析时限定基因集上下限
一些多功能的基因可能会出现在多个通路上，建议在后续分析时剔除
通路数据库通常是有人为偏误的，可能A通路的研究就是比B通路研究的深刻，甚至有些基因压根就没有被注释到，这些基因就需要单独进行研究。
大部分富集分析都有一个不切实际的前提，也就是基因和通路间是相互独立的，但是基因其实存在共表达，或者某些通路是类似的。但是FDR(多重试验校正)不在乎这件事情，如果你的通路里面存在过多的相似通路，那么校正之后的结果就会变得很少。不过，在前期探索性分析中还是能用的，后续分析可以自定义一个重抽样方法来更好的预测错误率。

试验设计

通路分析的好坏取决于你实验设计的好坏，我一致坚持认为"garbage in, garbage out"。要是实验设计太差，那么你可能得到由于试验偏误或者其他混淆因子产生的无意义结果。下面就是作者给出的关于试验设计的一些建议。

试验条件

实验条件必须定义为主要的观测变化，通常是实验者感兴趣的和生物学相关的处理。例如肿瘤和正常组织，处理和未处理，比较不同的疾病亚型，或者时间序列等。

重复数

实验重复非常重要，尤其是生物学重复，请至少做3个生物学重复吧。对于哪些变异特别大的设计，比如说肿瘤样本，请提供更多重复吧。

混淆因子

我们应该尽量避免和实验无关的因素或者至少在不同条件下达到平衡，这样次啊能保证利用了广义线性模型的统计学方法能够对这些因子进行矫正。常见的混淆因子如测序深度，核酸提取流程和年龄等。尽管我们不可能完全地在实验设计中将试验信号中混淆因子分离，但是提前知道可能的因素有助于提高试验设计。统计学方法中的聚类和PCA分析可以帮助我们找到这些未知的因素。例如，实验组和对照组应该离得远远的，而不会因为批次效应聚在一起。

离群值

离群样本指的是和其他样本差异过大的样本，一般是实验问题或者技术问题造成，比如说污染或者混样。当然，也有可能是极端生物学现象，比如说肿瘤样本有异常扩增的表型。我们可以用PCA或者无监督聚类的方式找到这种离群值。通路分析可以在有无离群值的情况下的进行，确保分析结果的鲁棒性。系统性移除离群值有助于降低实验的变异度。

试验敏感度

一些实验方法的敏感度会发生变化。举个例子，对于基因表达定量分析，显然测序深度越高，重复数越多，得到的差异表达基因也就越可靠。虽然大部分人没有钱测5个样本，但是3个还得保证吧。如果你研究可变剪切，那么对你的测序深度要求就更高了。

选择通路基因集数据库

考虑到通路分析结果可读性，作者建议先用如下的通路基因集进行分析，GO的BP(biological process), Reactome的人工审校分子通路(molecular pathways), 对于人类，Panther, HumanCyc和NetPath都是很好的资源。（GO的BP注释包括人工审校结果和电子注释）

根据证据代号过滤GO通路

许多自动化数据分析得到GO基因注释并没有得到人工审查，因此它们的证据代号(evidence code)登记为IEA (inferred from electronic annotation). 早期文献对这些数据非常谨慎的解释这些IEA标识的基因。但是近期研究发现，这些IEA GO注释结果和人工审查的数据一样可靠。如果你研究的是模式动植物，那么建议你分别比较过滤IEA和不过IEA的富集结果，来提高你结果的可靠性。如果是那些研究一般的物种，那么你也只能把IEA注释加上了。移除IEA标记的注释还可能对那些研究比较深入的生物学过程造成影响

使用非通路基因集

可以使用不同类型的数据集来解释不同的问题，但是请分开分析，也就是不要在一次通路分析中加入各种各样的基因集，这样子会由于多重试验矫正导致假阴性的提高。

选择合适的基因集大小

对于那些基因数不怎么多的通路，作者建议在分析中排除。一般而言，这些通路相对较大的通路是冗余的存在，而且在后期解释比较麻烦，甚至还会让多重试验校正更加严格。对于那些基因数很多的通路，作者同样建议移除，毕竟类似于metabolism 的宽泛概念在最后的解读中也没啥意义。

如果分析人类表达量数据，作者建议剔除基因集小于10~15的基因和大于200~500的基因，有些文献会把上线提高到200~2000。（PS: Y叔从clusterProfiler的最小值是10，最大值是500）。

对于非人类物种或者非表达量数据，由于不同的通路的研究程度不尽相同，所以集合的大小可以按需调整，但需要有文献或者试验的支持。一个比较好的做法是，看其中几个和试验相关的通路的基因集数目来确定上下限。

使用最新的通路数据集

富集分析结果依赖于分析中使用的基因集，最多许多研究用到的通路分析严重的收到了过时资源的影响。为了提高研究的可重复性和透明性，研究者需要在文献中标明分析日期，富集分析软件版本，用到的基因集数据库和分析参数。研究者最好把自己分析基因表和完整的富集通路表列在附件中。

选择基因标识符

在不同的数据库中，基因可能会有不同的标识符(ID)。这些基因标识符可能会出现冲突，甚至还会过期。对于人类，作者推荐使用Entrez基因数据库的编号，或者是HUGO Gene命名委员会的官方符号。由于基因符号会随时间变化，因此要对同时维护基因符合和Entrez基因iD。 g:Profiler和g:Convert工具能够实现多种基因编号到标准标号的转换。

非预期通路结果和试验设计

如果在你的通路分析中得到一些意外结果，这或许意味着你的试验设计、生成数据或分析出现了问题。举个例子，细胞凋亡(apoptosis)通路富集意味着实验的某些步骤导致了过多的细胞死亡。因此，你需要对你的实验过程进行调整，重新获取数据，用于后续分析。