[R] clusterProfiler GO / KEGGの濃縮分析の使用の概要

序文

clusterProfilerについてこのRパッケージが導入されていない、教授の純赤のプロパガンダはGOとKEGGは、機能性と可視​​化を豊かに主に行うために、非常に成功しただけでなく、より強力な関数でした。直接使用後に募集され使用される単純な集計の使用状況、。

からの情報のGOとKEGG注釈濃縮分析を行うclusterProfiler:最初の質問を考えてみましょうか?

BioconductorからGOアノテーション情報は、19種類の組織種は、以下の表に示すアノテーション情報をGO提供します。Bioconductor参照パッケージ内のより多くのコメントができhttp://www.bioconductor.org/packages/release/data/annotation/、混乱は、私が最も使わやって知りません。

パッケージ 生命体
org.Ag.eg.db ハマダラカ
org.At.tair.db シロイヌナズナ
org.Bt.eg.db ウシ
org.Ce.eg.db ワーム
org.Cf.eg.db
org.Dm.eg.db 飛ぶ
org.Dr.eg.db ゼブラフィッシュ
org.EcK12.eg.db 大腸菌株K12
org.EcSakai.eg.db 大腸菌は、堺株
org.Gg.eg.db チキン
org.Hs.eg.db 人間
org.Mm.eg.db マウス
org.Mmu.eg.db アカゲザル
org.Pf.plasmo.db マラリア
org.Pt.eg.db チンパンジー
org.Rn.eg.db ラット
org.Sc.sgd.db 酵母
org.Ss.eg.db
org.Xl.eg.db アフリカツメガエル

APIのKEGGデータベース、を介して取得するためにKEGGアノテーション情報clusterProfiler https://www.kegg.jp/kegg/rest/keggapi.html

最初は、経路注釈ファイル、そのような人々を、対応する全ての遺伝子の種である:http://rest.kegg.jp/link/hsa/pathway
:ヒトなどの経路に対応する記述情報の必要性が続く
http://rest.kegg.jp/list/pathway/hsa

:すべての種とその略称(3文字)にKEGGデータベースは、下に記載されています
https://www.genome.jp/kegg/catalog/org_list.html

多くの既存の経路注釈種よりも、単にclusterProfilerと略す種を入力するためにだから、それは自動的にネットワーク経由種の経路注釈情報を取得します。

例より多くの種の情報は、どのようにプロジェクトがない情報のための種を行い、ありますか?

GOは、外部GO注釈ファイルを読むことによって分析することができます。遺伝子の約GO注釈、interproscan、エッグノッグ・マッパーとblas2goソフトウェアが行うことができますが、出力形式は多少異なります。次のようにインポートファイル形式にclusterProfiler GOアノテーションは次のとおりです。

GeneID GO GO_Description
1 GO:0005819 スピンドル
2 GO:0072686 紡錘体
3 GO:0000776 動原体

3列以上は情報3は、任意の順序にすることができた情報を、含める必要があります。

そこ種の公共データベースのアノテーション情報があるが、それはデータベースorg.db(注釈の標準ライブラリ)に行われていなかった場合clusterProfilerパッケージはOrgDbを含むオブジェクトのために、ゼロからのアノテーションを必要とすることはできません、だけで、手動でorg.dbデータベースタイプを作成する必要があります次のように直接、完了後に使用することができます。

source("https://bioconductor.org/biocLite.R")
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")

BiocManager::install("AnnotationHub") # 一个包含大量注释信息的数据库,里面有很多物种及来源于很多数据库的注释信息。
BiocManager::install("biomaRt")

library(AnnotationHub) 
library(biomaRt)

hub <- AnnotationHub() #建立AnnotationHub对象(视人品,网不行加载不了)
# unique(hub$species) #查看AnonotationHub里面物种
hub$species[which(hub$species=="Solanum")] #看AnonotationHub里是否包含想要的物种
# Solanum是番茄的拉丁名
query(hub, "Solanum")  #查看该物种信息
hub[hub$species=="Solanum" & hub$rdataclass == "OrgDb"] #OrgDb属于rdataclass中,因此查看下该物种有没有OrgDb
Solanum.OrgDb <- hub[["AH59087"]]#AH59087是番茄对应的编号
#制作为标准注释库,就可和模式生物一样使用了

同様に、種のための経路は、データベースに、また経路遺伝子注釈ファイルを読み込み、その後、分析、注釈付きのファイル形式をサポートしませ以下のとおりです。

GeneID 小道 Path_Description
1 I:00001 スピンドル
2 I:00002 紡錘体
3 I:00003 動原体

情報の3行以上の順序は任意です。

濃縮分析

濃縮ORA、FCSの分析と3つの方法のトポロジーは、通常はあります。ORAは、単に超幾何検定またはFisherの正確確率検定で、類似した、現在最も使用される方法、長所と短所についての話である超幾何テスト、と一致しています。FCSを代表して、遺伝子セット濃縮分析、また長所と短所についての話にあるGSEA、です。clusterProfilerは、両方の濃縮分析方法を提供します。
ORA 1(オーバー解析表現)
GO濃縮参照コード:

#标准富集分析
ego <- enrichGO(
          gene  = gene$entrzID,
          keyType = "ENTREZID", 
          universe = names(geneList), #背景基因集,可省
          OrgDb   = org.Hs.eg.db,
          ont     = "CC",
          pAdjustMethod = "BH",
          pvalueCutoff  = 0.01,
          qvalueCutoff  = 0.05,
          readable      = TRUE)

#通过导入外部注释文件富集分析
data <- read.table("go_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- enricher(gene,TERM2GENE = go2gene,TERM2NAME = go2name)

遺伝子ベクターの違いに対応する遺伝子、
キータイプは、ID、デフォルトはENTREZIDで、keytypesを参照してください(org.Hs.eg.db)タイプを指定した型遺伝子;
OrgDb orgのパケットを指定し、対応する種の名称;
GOの3つの主要なカテゴリのONT代表また、BP、CC、MFが、すべてのすべて;
pAdjustMethodは、複数の仮説検定補正の方法を指定し、 "ホルム"、 "Hochbergの"存在する "ホンメル"、 "ボンフェローニ"、 "BH"、 "BY"、 "FDR"は、 「なし」の一種は、
対応するしきい値を指定cufoff、
遺伝子の読み取り可能なID = TRUE代表は、遺伝子シンボルに変換されます。

KEGGパスウェイ濃縮参照コード:

#标准富集分析
ego <- enrichKEGG(
          gene = gene,
          keyType = "kegg",
          organism  = 'hsa',
          pvalueCutoff  = 0.05,
          pAdjustMethod  = "BH",
          qvalueCutoff  = 0.05
)


#通过外部导入注释文件富集
data <- read.table("pathway_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- enricher(gene,TERM2GENE = go2gene,TERM2NAME = go2name)

デフォルトは、遺伝子ID KEGG遺伝子IDであり、これはNCBI-geneid、NCBI-proteinidであってもよい UNIPROT 等。
他のパラメータと3文字の省略形に対応する生物種は、GOを富みます。ID変換機能:

library(clusterProfiler)
bitr_kegg("1",fromType = "kegg",toType = 'ncbi-proteinid',organism='hsa')

library(org.Hs.eg.db)
keytypes(org.Hs.eg.db) #支持的ID类型
bitr(gene, fromType = "ENTREZID", toType = c("ENSEMBL", "SYMBOL"), OrgDb = org.Hs.eg.db)

#以上看出ID转换输入时,可以向量的形式,也可以单列基因名list导入,也可以是内置数据
gene <- c("AASDH","ABCB11","ADAM12","ADAMTS16","ADAMTS18")
gene  <-  data$V1 #字符串

data(geneList, package="DOSE") #富集分析的背景基因集
gene <- names(geneList)[abs(geneList) > 2]

GSEA 2.(遺伝子セットの濃縮解析)
GO濃縮参照コード:

#标准富集分析
ego <- gseGO(
      geneList  = geneList,
      OrgDb  = org.Hs.eg.db,
      ont  = "CC",
      nPerm  = 1000,  #置换检验的置换次数
      minGSSize  = 100,
      maxGSSize  = 500,
      pvalueCutoff = 0.05,
      verbose  = FALSE)

#通过导入外部注释文件富集分析参考代码:
data <- read.table("go_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- GSEA(gene,TERM2GENE = go2gene,TERM2NAME = go2name)

KEGGパスウェイ濃縮参照コード:

#标准富集分析
kk <- gseKEGG(
  geneList  = gene,
  keyType  = 'kegg',
  organism = 'hsa',
  nPerm  = 1000,
  minGSSize = 10,
  maxGSSize = 500,
  pvalueCutoff = 0.05,
  pAdjustMethod     = "BH"
)

#通过外部导入注释文件富集
data <- read.table("pathway_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- GSEA(gene,TERM2GENE = go2gene,TERM2NAME = go2name)

可視化

1.GO濃縮解析結果の可視化

#barplot
barplot(ego, showCategory = 10) #默认展示显著富集的top10个,即p.adjust最小的10个

#dotplot
dotplot(ego, showCategory = 10)

#DAG有向无环图
plotGOgraph(ego)  #矩形代表富集到的top10个GO terms, 颜色从黄色过滤到红色,对应p值从大到小。

#igraph布局的DAG
goplot(ego)

#GO terms关系网络图(通过差异基因关联)
emapplot(ego, showCategory = 30)

#GO term与差异基因关系网络图
cnetplot(ego, showCategory = 5)

2.Pathway濃縮解析結果の可視化

#barplot
barplot(kk, showCategory = 10)

#dotplot
dotplot(kk, showCategory = 10)

#pathway关系网络图(通过差异基因关联)
emapplot(kk,  showCategory = 30)

#pathway与差异基因关系网络图
cnetplot(kk, showCategory = 5)

#pathway映射
browseKEGG(kk, "hsa04934") #在pathway通路图上标记富集到的基因,会链接到KEGG官网

参考:
https://blog.csdn.net/weixin_43569478/article/details/83744242
https://blog.csdn.net/weixin_43569478/article/details/83744384
https://www.jianshu.com/p/065d38c28e2d
HTTPS ://www.jianshu.com/p/47b5ea646932
https://www.cnblogs.com/yatouhetademao/p/8018252.html
https://zhuanlan.zhihu.com/p/35510434

おすすめ

転載: www.cnblogs.com/jessepeng/p/12159139.html