参考基因组中的特殊序列

若参考基因组序列不包含chr*random 和 chrUn序列,原来属于chrrandom 和 chrUn的read可能比对到chr1-22,chrX,chrY上相似区域,造成假阳性比对,后续这些reads提供的信息不可靠。通过增加这一部分参考序列,使来自这些区域的reads正确比对,减少假阳性。后续分析不考虑chrrandom 和 chrUn*。

human GRCh37
unlocalized sequences”:知道染色体但不知具体位置的序列
unplaced sequences”:知道来自人类基因组序列,但不知与染色体的关系
alternate loci”:来自基因组特定区域,代表该区域序列的多样性
human hg19…
chr*_random sequences” : 知道来自哪条染色体但不知具体位置的序列

The chr*_random sequences are unplaced sequence on those reference chromosomes.

chrUn_* sequences” : 知道来自人类基因组序列,但不知与染色体的关系

The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.

高粱super玉米scoffold
基因组组装时部分片段无法挂载到染色体上,因此除了染色体外还有一些片段留在参考基因组当中,有的基因组将这些片段之间加N链接成super序列,也有的直接不处理以scoffold出现
水稻sy和un
Sequences from BACs and the Syngenta assembly of Nipponbare that could not be anchored are on separate pseudomolecules, the Unanchored and the Syngenta chromosomes.

猜你喜欢

转载自blog.csdn.net/geekfocus/article/details/120826251