三代基因组:Minimap+miniasm组装,racon+pilon纠错

用Li Heng开发的Minimap+miniasm进行组装,然后用racon+pilon进行纠错。

三代测序拼装软件,三代测序平台 Nanopore Pacbio 产生的数据的一个共同点就是,读长长,错误率高,在用于分析之前需要对数据进行特殊处理(consensus,纠错),再进行拼装任务,Liheng 开发的 Miniasm 可以直接对未处理的长读长序列进行快速拼装,在对Miniasm拼装的Contig序列进行抛光处理后会出现不少SNP/INDEL, Racon 可解决这个问题,Racon是一个基于minimap和miniasm的,构建一致性序列(consensus)的一款软件,速度快是其特点。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件输入格式,相对于 Quiver Nanopolish 通用性更高。

第一步:用minimap2,拿着80%~90%正确率的原始数据相互比对, 找序列之间的Overlap。

第二步:找到Overlap,用miniasm进行组装。

第三步: 原始的组装结果充满了错误,所以需要进行纠错。纠错分为两种,一种是用三代自身数据,一种是用二代数据进行纠错。当然这两步都是需要的。

  首先用minimap2和racon对三代数据进行纠错,一般迭代个三次就差不多。

  其次使用二代数据进行纠错。二代数据虽然短,但是测序质量高,所以一般都要用它进行纠错。推荐用30X PCR free的illuminia 测序数据。

    Step 1: 数据预处理,过滤低质量短读,去接头。工具很多,常用的是trimmomatic、cutadapter、 fastp(处理标准:平均质量高于Q30,对5‘端进行低质量碱基删除,保留大于100bp的短读)

    Step2:用bwa 比对

    step3: 用pilon对比对后的BAM文件进行纠错

参考来源:

https://blog.csdn.net/u012110870/article/details/82500726

http://ju.outofmemory.cn/entry/288897

http://wap.sciencenet.cn/blog-285393-1178834.html

猜你喜欢

转载自www.cnblogs.com/bio-mary/p/11762979.html
今日推荐