序文
clusterProfilerについてこのRパッケージが導入されていない、教授の純赤のプロパガンダはGOとKEGGは、機能性と可視化を豊かに主に行うために、非常に成功しただけでなく、より強力な関数でした。直接使用後に募集され使用される単純な集計の使用状況、。
からの情報のGOとKEGG注釈濃縮分析を行うclusterProfiler:最初の質問を考えてみましょうか?
BioconductorからGOアノテーション情報は、19種類の組織種は、以下の表に示すアノテーション情報をGO提供します。Bioconductor参照パッケージ内のより多くのコメントができhttp://www.bioconductor.org/packages/release/data/annotation/、混乱は、私が最も使わやって知りません。
パッケージ | 生命体 |
---|---|
org.Ag.eg.db | ハマダラカ |
org.At.tair.db | シロイヌナズナ |
org.Bt.eg.db | ウシ |
org.Ce.eg.db | ワーム |
org.Cf.eg.db | 犬 |
org.Dm.eg.db | 飛ぶ |
org.Dr.eg.db | ゼブラフィッシュ |
org.EcK12.eg.db | 大腸菌株K12 |
org.EcSakai.eg.db | 大腸菌は、堺株 |
org.Gg.eg.db | チキン |
org.Hs.eg.db | 人間 |
org.Mm.eg.db | マウス |
org.Mmu.eg.db | アカゲザル |
org.Pf.plasmo.db | マラリア |
org.Pt.eg.db | チンパンジー |
org.Rn.eg.db | ラット |
org.Sc.sgd.db | 酵母 |
org.Ss.eg.db | 豚 |
org.Xl.eg.db | アフリカツメガエル |
APIのKEGGデータベース、を介して取得するためにKEGGアノテーション情報clusterProfiler https://www.kegg.jp/kegg/rest/keggapi.html。
最初は、経路注釈ファイル、そのような人々を、対応する全ての遺伝子の種である:http://rest.kegg.jp/link/hsa/pathway。
:ヒトなどの経路に対応する記述情報の必要性が続く
http://rest.kegg.jp/list/pathway/hsa。
:すべての種とその略称(3文字)にKEGGデータベースは、下に記載されています
https://www.genome.jp/kegg/catalog/org_list.html。
多くの既存の経路注釈種よりも、単にclusterProfilerと略す種を入力するためにだから、それは自動的にネットワーク経由種の経路注釈情報を取得します。
例より多くの種の情報は、どのようにプロジェクトがない情報のための種を行い、ありますか?
GOは、外部GO注釈ファイルを読むことによって分析することができます。遺伝子の約GO注釈、interproscan、エッグノッグ・マッパーとblas2goソフトウェアが行うことができますが、出力形式は多少異なります。次のようにインポートファイル形式にclusterProfiler GOアノテーションは次のとおりです。
GeneID | GO | GO_Description |
---|---|---|
1 | GO:0005819 | スピンドル |
2 | GO:0072686 | 紡錘体 |
3 | GO:0000776 | 動原体 |
3列以上は情報3は、任意の順序にすることができた情報を、含める必要があります。
そこ種の公共データベースのアノテーション情報があるが、それはデータベースorg.db(注釈の標準ライブラリ)に行われていなかった場合clusterProfilerパッケージはOrgDbを含むオブジェクトのために、ゼロからのアノテーションを必要とすることはできません、だけで、手動でorg.dbデータベースタイプを作成する必要があります次のように直接、完了後に使用することができます。
source("https://bioconductor.org/biocLite.R")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("AnnotationHub") # 一个包含大量注释信息的数据库,里面有很多物种及来源于很多数据库的注释信息。
BiocManager::install("biomaRt")
library(AnnotationHub)
library(biomaRt)
hub <- AnnotationHub() #建立AnnotationHub对象(视人品,网不行加载不了)
# unique(hub$species) #查看AnonotationHub里面物种
hub$species[which(hub$species=="Solanum")] #看AnonotationHub里是否包含想要的物种
# Solanum是番茄的拉丁名
query(hub, "Solanum") #查看该物种信息
hub[hub$species=="Solanum" & hub$rdataclass == "OrgDb"] #OrgDb属于rdataclass中,因此查看下该物种有没有OrgDb
Solanum.OrgDb <- hub[["AH59087"]]#AH59087是番茄对应的编号
#制作为标准注释库,就可和模式生物一样使用了
同様に、種のための経路は、データベースに、また経路遺伝子注釈ファイルを読み込み、その後、分析、注釈付きのファイル形式をサポートしませ以下のとおりです。
GeneID | 小道 | Path_Description |
---|---|---|
1 | I:00001 | スピンドル |
2 | I:00002 | 紡錘体 |
3 | I:00003 | 動原体 |
情報の3行以上の順序は任意です。
濃縮分析
濃縮ORA、FCSの分析と3つの方法のトポロジーは、通常はあります。ORAは、単に超幾何検定またはFisherの正確確率検定で、類似した、現在最も使用される方法、長所と短所についての話である超幾何テスト、と一致しています。FCSを代表して、遺伝子セット濃縮分析、また長所と短所についての話にあるGSEA、です。clusterProfilerは、両方の濃縮分析方法を提供します。
ORA 1(オーバー解析表現)
GO濃縮参照コード:
#标准富集分析
ego <- enrichGO(
gene = gene$entrzID,
keyType = "ENTREZID",
universe = names(geneList), #背景基因集,可省
OrgDb = org.Hs.eg.db,
ont = "CC",
pAdjustMethod = "BH",
pvalueCutoff = 0.01,
qvalueCutoff = 0.05,
readable = TRUE)
#通过导入外部注释文件富集分析
data <- read.table("go_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- enricher(gene,TERM2GENE = go2gene,TERM2NAME = go2name)
遺伝子ベクターの違いに対応する遺伝子、
キータイプは、ID、デフォルトはENTREZIDで、keytypesを参照してください(org.Hs.eg.db)タイプを指定した型遺伝子;
OrgDb orgのパケットを指定し、対応する種の名称;
GOの3つの主要なカテゴリのONT代表また、BP、CC、MFが、すべてのすべて;
pAdjustMethodは、複数の仮説検定補正の方法を指定し、 "ホルム"、 "Hochbergの"存在する "ホンメル"、 "ボンフェローニ"、 "BH"、 "BY"、 "FDR"は、 「なし」の一種は、
対応するしきい値を指定cufoff、
遺伝子の読み取り可能なID = TRUE代表は、遺伝子シンボルに変換されます。
KEGGパスウェイ濃縮参照コード:
#标准富集分析
ego <- enrichKEGG(
gene = gene,
keyType = "kegg",
organism = 'hsa',
pvalueCutoff = 0.05,
pAdjustMethod = "BH",
qvalueCutoff = 0.05
)
#通过外部导入注释文件富集
data <- read.table("pathway_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- enricher(gene,TERM2GENE = go2gene,TERM2NAME = go2name)
デフォルトは、遺伝子ID KEGG遺伝子IDであり、これはNCBI-geneid、NCBI-proteinidであってもよい UNIPROT 等。
他のパラメータと3文字の省略形に対応する生物種は、GOを富みます。ID変換機能:
library(clusterProfiler)
bitr_kegg("1",fromType = "kegg",toType = 'ncbi-proteinid',organism='hsa')
library(org.Hs.eg.db)
keytypes(org.Hs.eg.db) #支持的ID类型
bitr(gene, fromType = "ENTREZID", toType = c("ENSEMBL", "SYMBOL"), OrgDb = org.Hs.eg.db)
#以上看出ID转换输入时,可以向量的形式,也可以单列基因名list导入,也可以是内置数据
gene <- c("AASDH","ABCB11","ADAM12","ADAMTS16","ADAMTS18")
gene <- data$V1 #字符串
data(geneList, package="DOSE") #富集分析的背景基因集
gene <- names(geneList)[abs(geneList) > 2]
GSEA 2.(遺伝子セットの濃縮解析)
GO濃縮参照コード:
#标准富集分析
ego <- gseGO(
geneList = geneList,
OrgDb = org.Hs.eg.db,
ont = "CC",
nPerm = 1000, #置换检验的置换次数
minGSSize = 100,
maxGSSize = 500,
pvalueCutoff = 0.05,
verbose = FALSE)
#通过导入外部注释文件富集分析参考代码:
data <- read.table("go_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- GSEA(gene,TERM2GENE = go2gene,TERM2NAME = go2name)
KEGGパスウェイ濃縮参照コード:
#标准富集分析
kk <- gseKEGG(
geneList = gene,
keyType = 'kegg',
organism = 'hsa',
nPerm = 1000,
minGSSize = 10,
maxGSSize = 500,
pvalueCutoff = 0.05,
pAdjustMethod = "BH"
)
#通过外部导入注释文件富集
data <- read.table("pathway_annotation.txt",header = T,sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
x <- GSEA(gene,TERM2GENE = go2gene,TERM2NAME = go2name)
可視化
1.GO濃縮解析結果の可視化
#barplot
barplot(ego, showCategory = 10) #默认展示显著富集的top10个,即p.adjust最小的10个
#dotplot
dotplot(ego, showCategory = 10)
#DAG有向无环图
plotGOgraph(ego) #矩形代表富集到的top10个GO terms, 颜色从黄色过滤到红色,对应p值从大到小。
#igraph布局的DAG
goplot(ego)
#GO terms关系网络图(通过差异基因关联)
emapplot(ego, showCategory = 30)
#GO term与差异基因关系网络图
cnetplot(ego, showCategory = 5)
2.Pathway濃縮解析結果の可視化
#barplot
barplot(kk, showCategory = 10)
#dotplot
dotplot(kk, showCategory = 10)
#pathway关系网络图(通过差异基因关联)
emapplot(kk, showCategory = 30)
#pathway与差异基因关系网络图
cnetplot(kk, showCategory = 5)
#pathway映射
browseKEGG(kk, "hsa04934") #在pathway通路图上标记富集到的基因,会链接到KEGG官网
参考:
https://blog.csdn.net/weixin_43569478/article/details/83744242
https://blog.csdn.net/weixin_43569478/article/details/83744384
https://www.jianshu.com/p/065d38c28e2d
HTTPS ://www.jianshu.com/p/47b5ea646932
https://www.cnblogs.com/yatouhetademao/p/8018252.html
https://zhuanlan.zhihu.com/p/35510434