Vsearch免费替代收费版的usearch

本文首先发布于“宏基因组”公众号原创。

作者:舟行天下
编辑:metagenome

前言

用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由大神Robert Edgar开发,详情见文章:扩增子分析神器USEARCH简介

usearch这个软件的安装以及使用都非常方便,简直就是扩增子测序分析的神器!进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。关于USEARCH的详细介绍请参考:《扩增子分析神器USEARCH简介》 由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢? 小编在这里就要给大家发一个福利了,让你能无差别的使用usearch的绝大部分功能而且还不用收费。那就是用vsearch软件替代usearch部分功能,结合usearch一起使用。

vsearch简介

vsearch 是一个开源免费的64位,无内存限制的扩增子数据分析软件。该软件是专门针对Edgar大神开发的 USEARCH
软件而设计的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神开发的 USEARCH不开源,并且没有给出其算法的详细描述,最主要是免费的版本只有32位,而且有4 GB的使用内存限制,所以他们想了想直接自己开发了一个与usearch功能类似的软件工大家使用。根据谷歌学术的统计数据,该软件从2 016年发表到现在已经被引用了218次。

从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。 (FIG.1)

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。 (FIG.2)

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。 (FIG.3)

vsearch主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。 在最新发布的vsearch版本中,作者也针对usearch10中的UNOISE去噪方法(详细介绍),在vsearch中加入了UNOISE方法用于聚类分析。

vsearch软件目前已经更新到了2.7.1版本,其Windows的安装版本链接是:vsearch; MAC版本的下载链接是:MAC_vsearch
)

扫描二维码关注公众号,回复: 4534341 查看本文章

usearch+vsearch实战操作

文中使用所有文件下载链接:https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密码:dmfy 然后我们将下载好的测试数据放在工作目录下面。

首先是vsearch的安装:

在linux中我们直接执行以下命令就可以直接安装了

##如何安装vsearch
wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz
tar xzf v2.6.2.tar.gz
cd vsearch-2.6.2
./autogen.sh
./configure
make
make install  # as root or sudo make install

mkdir -p seq # 原始数据 raw data

要想灵活的玩转vsearch加usearch软件,那我们首先要知道usearch免费版本的软件究竟是在你的分析流程中的哪几个步骤限制了你的 数据量大小,这样我们就可以在有需要替换的步骤用vsearch软件进行替换了。当你拿到拆分好的扩增子数据后我们通过进行的数据处 理流程如下图所示:(FIG.4)

从图中我们可以看到usearch在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的vsearch步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。转化成一个可读的OTU table了。

Vsearch使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results

# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件

#Merge paired reads and label samples

# 测序数据解压
gunzip seq/*

# 依照实验设计批处理并合并

for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout  temp/${i}.merged.fq
done 

for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastx_filter temp/${i}.merged.fq  --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. &
done

# 合并所有样品至同一文件
cat temp/*.merged.relabe.fq > temp/all.fq
ls -l temp/all.fq
less temp/all.fq
# remove useless file 
rm temp/*.merged.fq
# 压缩原始文件节省空间
#gzip seq/*
# 3. Cut primers and quality filter
# Cut barcode 10bp + V5 19bp in left and V7 18bp in right
vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq
# 质量控制fastq filter, keep reads error rates less than 1%
vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa
#761431 sequences kept (of which 0 truncated), 5627 sequences discarded.

less temp/filtered.fa

# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2

## 如果用基于reference的去嵌合,# 细菌推荐用Gold数据库去除嵌合体可以下载rdp_gold.fa作为reference数据库 
#wget http://drive5.com/uchime/rdp_gold.fa
#然后执行下面这条注释过的命令
#wget http://drive5.com/uchime/rdp_gold.fa
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa

#聚类分析生产OTU代表性序列
vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc
## 嵌合体的检测与去除
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa

# Create OTUs table创建OTU表格

vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txt

Reference

  1. Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.
  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  3. UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

猜你喜欢

转载自blog.csdn.net/zhouxin518/article/details/83650698