NCBI上下载的原始数据为SRA数据,而适用于大部分生物软件的是fastq格式,所以我们需要将sra格式的原始数据转为fastq格式。NCBI提供了数据转换的软件fastq-dump。
1、下载软件
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
tar zxf sratoolkit.2.9.2-centos_linux64.tar.gz
解压后软件就在./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump
2、转换格式
使用基本命令行
./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump /path/to/xxx.sra
但是这个默认使用方法得到结果往往很糟, 比如说他默认会把双端测序结果保存到一个文件里, 但是如果你加上--split-3之后, 他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持,就是时间要多一点。
3、其他参数
请参考下面的reference里hoptop在生信技能树的分享,写的比较仔细,我就不照搬啦~
参考
1、 如何使用fastq-dump转换SRA格式