GEO(Gene Expression Omnibus):高通量基因表达数据库

  Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据。 除数据存储外,还提供一系列基于Web的界面和应用程序,以帮助用户查询和下载存储在GEO中的研究和基因表达模式。

GEO的数据储存方式

  GEO数据库具体存放四类数据:GSE、GDS、GSM、和GPL。

  一个GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能涉及不同平台;

  一个GDS号(GDSxxx)对应的一个同一平台的数据集, 这些包括从微阵列和高通量序列技术生成的数据,例如:

  一个GSM号(GSMxxx)对应单一样品的数据信息,它只能是单一平台的数据,往往,GSE 和GDS中会包含多个GSM数据;

  一个GPL号(GPLxxx)则对应一个平台的信息,一般不接触的。

  另外,GEO Profiles数据库是GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。

GEO的数据检索与下载

  GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索。例如检索乳腺癌,如下所示:

  1. 搜索乳腺癌“BreastCancer”,即可获得所有乳腺癌的芯片数据。

  2. 选择需要研究的芯片点击进入

  3.点击样本分类号,就可以跳转到下载页面,下载SOFT、MINiML和RAW等数据。

  4. 在该样本中还可以进行分析,例如分析BRCA1基因表达谱,可以发现Profile neighbors链接,即表达谱相近的基因,这就是我们需要寻找的与BRCA1相关的有可能共表达的基因了。

  5. 对所有该基因的表达谱分析后,同样可以获得可能的信号通路。

R包安装与下载数据

> # try http:// if https:// URLs are not supported
> source("https://bioconductor.org/biocLite.R")
> biocLite("GEOquery")

利用GSE号下载

通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:

> library(GEOquery)
> # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
> GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GDS号下载

> GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GSM号下载

  利用GSM号下载的是单样本的表达数据,例如GSM1394594:

> GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GPL号下载

  针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:

> GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

参考资料

http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html

https://www.ncbi.nlm.nih.gov/gds/

猜你喜欢

转载自www.cnblogs.com/yahengwang/p/9676422.html
今日推荐