GEO和TCGA

GEO数据库简介

1、GEO数据库是个什么鬼呢？

GEO数据库全称GENE EXPRESSION OMNIBUS，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年，收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

关键是这个数据是免费的！免费的！免费的！这么想一想世界还是很美好的。

2、GEO数据库有哪些检索入口呢？

最常用的有两种方式，一种是通过网址http://www.ncbi.nlm.nih.gov/geo直接进入，另外一种就是通过pubmed入口啦。

3、文章来源和使用教程

TCGA简介

1、什么是TCGA？TCGA中有哪些数据？

TCGA的全称是The Cancer Genome Atlas, 这个项目始于2005年，它旨在使用基因测序和生物信息学编目与癌症有关的基因突变。TCGA通过利用高通量基因组分析技术，来帮助我们更好地理解癌症的遗传学基础，从而提升我们对于癌症的诊断能力和对癌症的治疗、预防。

TCGA受美国癌症研究所(National Cancer Institute)下的癌症基因组中心和美国人类基因组研究所监管。

TCGA包括主要进行测序的基因组表征中心(genome characterization centers, GCCs)和负责测序数据分析的基因组数据分析中心(genome data analysis centers, GDACs)，到目前为止TCGA共有39种癌症的相关测序数据，涉及29种癌症器官，1万多个肿瘤样本，27万多份文件。

2、那么可以从TCGA中下载到哪些类型的数据呢？

TCGA的数据类型主要有以下几种：
(1) Clinical: 包括病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等。
(2) mRNA表达数据: 通过mRNA芯片或者RNAseq测得的mRNA表达量
(3)microRNA: microRNA芯片或者microRNA-Seq测得的microRNA表达量
(4) Copy number variation: SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
(5) Mutation: 肿瘤组织测序结果相对参考基因组的核苷酸突变，包括插入和缺失等变化
(6) Protein: 蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
(7) Mythelation: 甲基化芯片测得的DNA甲基化数据，主要为27和450两种芯片的数据

其中mRNA-Seq，miRNA-Seq以及Methylation Array被广泛使用。

3.mRNA-Seq数据分为3种：
HTSeq-Counts；HTSeq-FPKM；HTSeq-FPKM-UQ。

前两个比较好理解，第三个跟第二个的区别在于不同的标准化方法，公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

4.TCGA数据等级：

level1：原始数据
level2：处理过的数据
level3：经过分割、解释的数据
level4：感兴趣的区域或概要

总而言之，前面2个层级的数据一般是拿不到的，需要权限，一般也只有国外的PI才能申请到（听说的），我们一般拿到的open数据就属于那种已经标准化后的数据。

5.TCGA样本分类：
除了要知道数据等级外，我们还需要了解TCGA的样本分类，比如哪个是正常样本，哪个是肿瘤样本

一般我们可以看到样品名称如：TCGA-19-2619-10A，我们需要关注的是最后一位10A，一般来说01代表癌症样本，11代表癌旁样本。其实从01-09是tumor，癌症样本；10-29是normal，癌旁样本。只是其中分的比较细。具体可参考官网

6、TCGA数据下载方式

主要有三种方式可以下载TCGA的数据，一是利用GDC官方的下载工具；二是利用cbioportal下载；三是TCGA-assembler 2。

文章来源

GEO数据库简介

TCGA简介

猜你喜欢