GEOquery

GEOquery 是 bioconductor 项目下的一个R包

官网:http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html

下载安装:

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("GEOquery")

GEO 是由NCBI负责维护的一个数据库,期初是有芯片数据,后来增加了甲基化芯片和高通量测序数据。

GEO 数据库基础知识(有另一篇博文专门接受GEO数据库)

GEO Platform (GPL) 芯片平台

GEO Sample (GSM) 样本ID号

GEO Series (GSE) study 的ID号

GEO Dataset (GDS) 数据集的ID号

GEOquery 用法

只需要记住以下三个函数,以及每个函数返回的对象该如何处理即可。

getGEO()

getGEOfile()

getGEOSuppFiles()

这三个函数根据上面的四种ID下载数据的时候,返回的对象是不同的。

首先介绍 getGEO() 函数

-- gse1009 <- getGEO("GSE1009", destdir = ".")    # 根据GSE号下载数据,下载 ***_series_matrix.txt.gz 文件

-- gds858 <- getGEO("GDS858", destdir = ".")    # 根据GDS号下载数据,下载 soft 文件

-- gpl96 <- getGEO("GPL96", destdir = ".")    # 根据GPL号下载的是芯片设计的信息

下载的文件都会保存在本地,destdir 参数用来指定下载地址。

getGEO()的比较重要的参数有:

GSEmatrix = TRUE

AnnotGPL = FALSE

getGPL = TRUE

根据返回对象的不同,针对返回对象的方法也不一样

猜你喜欢

转载自www.cnblogs.com/0820LL/p/11668881.html