使用SPAdes测序数据拼接软件拼装基因组

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kongxx/article/details/88653967

简介

SPAdes 是由俄罗斯科学院 St. Petersburg Academic University 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。目前的最新版本 v3.6.2 可以支持常见的 illumina miseq/hiseq 和 ion torrent 测序数据,对单分子测序平台的 pacbio 和 nanopore 的测序数据也能进行拼装,还能进行混合数据的拼装。在 GAGE-B 的测拼里,在 Miseq 平台上的结果获得了最好的评价。

准备

下载测试数据

curl -O ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/ERR/ERR571/ERR571271/ERR571271.sra

将 sra 文件转换成 fastq 文件

为了将sra文件转换成fastq格式,我们需要使用 fastq-dump 工具,这个工具被打包在 sratoolkit 工具包中。

sratoolkit 工具包下载地址

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

Linux环境可以执行选择下面地址直接下载并解压安装

# CentOS
wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
# Ubuntu
wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

tar zxvf sratoolkit.2.9.2-centos_linux64.tar.gz

将 sra 文件转换成 fastq 文件

./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-files ERR571271.sra

解压后产生 ERR571271_1.fastq 和 ERR571271_2.fastq 文件。

下载 Docker 镜像

为了测试方便,这里没有从源码进行编译,而是直接使用的 Docker 容器来做测试。

为了从 quay.io 获取 spades 镜像,需要先注册一个账号,注册比较简单,就是填个表格就行了。

sudo docker login quay.io

sudo docker pull quay.io/quay.io/biocontainers/spades:3.12.0--1

运行 Docker 容器

在上面下载的数据文件同级目录下运行下面命令来启动一个容器,且后续的测试命令都需要在此容器里运行。

# 启动一个容器
sudo docker run -it --rm -v `pwd`:/spades quay.io/biocontainers/spades:3.12.0--1 bash

# 运行一下测试
spades.py --test

拼装基因组

# 在容器中运行
cd /spades
spades.py -m 32 -t 16 -1 ERR571271_1.fastq -2 ERR571271_2.fastq -o output

其中可以根据机器配置情况使用 -m 来调节内存,使用 -t 调节线程数。

猜你喜欢

转载自blog.csdn.net/kongxx/article/details/88653967