为什么UCSC上的基因坐标和ncbi上下载的基因坐标不一样?

刚刚从发ncbi的后台下载了一套hg19的注释文件gff格式的,和ucsc上下载的refseqgene注释进行了对比,发现一个奇怪的问题: 同一个转录本的起始坐标相差10000.

花了一上午的时间对比了下才发现,原来ucsc上的基因组序列都在序列上前后各添加了10000个N.

然后又检查了genecode的基因组,也是前后各添加了10000个N.  ncbi提供的hg38也是如此。  

原因找到了,不过用的时候确实需要注意。也就是说在整理注释信息的时候,如果需要添加N则需要对坐标进行平移。

猜你喜欢

转载自www.cnblogs.com/weka/p/10688830.html