人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38

如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下:

1)GRCH37,b37,hs37d5(b37+decoy)与hg19、GRCH38(hg38)的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg19的基因组版本之一(另一个版本无hs37d5,即decoy序列)。

2)GRCH37,b37和hs37d5的区别: 可以将hs37d5理解为b37的升级版,b37为GRCH37的升级版。b37在GRCH37的基础上进行命名和坐标系统规范,包括线粒体和GL开头的一些没有定位到基因组的序列;hs37d5在b37基础上增加了一条病毒序列(疱疹病毒),一条decoy序列(hs37d5,来自BAC或者质粒克隆等,没有具体的变异检测的作用,但是能增加比对率,以及提升正确的比对率),并且在Y染色体上把X,Y染色体的同源区mark 成了N。

3) hg 19与hs37d5的区别: hg19与hs37d5的坐标系统一样,1-X,Y染色体碱基信息一模一样。区别是(不考虑scaffold的区别):

    • 线粒体有差别(版本不一样,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建议使用NC_012920(也有基于hg19更新线粒体信息的hg19基因组)。
    • UCSC参考基因组中有大小写碱基,小写表示在repeat区(Repeats from RepeatMasker and Tandem Repeats Finder)。
    • 染色体编号表示不同,hg19带有chr,hs37d5直接是染色体编号

4)hs37d5和GRCH38(hg38)的区别: GRCH38是GRCH37的升级版,总体组装的碱基数量,基因的坐标位置等许多信息的更新,具体区别可参考PPT

每次基因组版本的升级,比如从hg18到hg19,再到hg38,坐标系统已经不一样,所以分析过程中使用了某个基因组,去公共数据库查询频率,位置等信息时,都要对应到使用的参考基因组查询相关信息,才能保持信息的一致性。另外,如果需要,基因组坐标间也能通过LiftOver进行转换。

5)以下是hg19和GRCH37衍生版本之间差异及信息的说明网址,可供参考:https://wiki.dnanexus.com/Scientific-Notes/human-genome

猜你喜欢

转载自blog.csdn.net/u014182497/article/details/84032261
VS