Vsearch免费替代收费版的usearch

本文首先发布于“宏基因组”公众号原创。

作者：舟行天下
编辑：metagenome

前言

用usearch，這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由大神Robert Edgar开发，详情见文章：扩增子分析神器USEARCH简介

usearch这个软件的安装以及使用都非常方便，简直就是扩增子测序分析的神器！进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存，依照本人数据量以及使用经验的话，大于40个样品可能就不能有效的跑完全部流程了。关于USEARCH的详细介绍请参考：《扩增子分析神器USEARCH简介》由于该软件64位收费版确实有点贵，而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢？小编在这里就要给大家发一个福利了，让你能无差别的使用usearch的绝大部分功能而且还不用收费。那就是用vsearch软件替代usearch部分功能，结合usearch一起使用。

vsearch简介

vsearch 是一个开源免费的64位，无内存限制的扩增子数据分析软件。该软件是专门针对Edgar大神开发的 USEARCH
软件而设计的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神开发的 USEARCH不开源，并且没有给出其算法的详细描述，最主要是免费的版本只有32位，而且有4 GB的使用内存限制，所以他们想了想直接自己开发了一个与usearch功能类似的软件工大家使用。根据谷歌学术的统计数据，该软件从2 016年发表到现在已经被引用了218次。

从FIG.1可以看到：通过与USEARCH7和USEARCH8对比，VSEARCH在嵌合体检测过程准确性优于USEARCH。 (FIG.1)

从FIG.2可以看到：通过与USEARCH7和USEARCH8对比，VSEARCH的搜索准确率与USEARCH相当。 (FIG.2)

从FIG.2可以看到：通过与USEARCH7和USEARCH8对比，VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。 (FIG.3)

vsearch主要的功能与参数都与usearch版本类似，其主要特点是开源免费，持续更新而且软件易于安装，且有各平台的版本。在最新发布的vsearch版本中，作者也针对usearch10中的UNOISE去噪方法(详细介绍)，在vsearch中加入了UNOISE方法用于聚类分析。

vsearch软件目前已经更新到了2.7.1版本，其Windows的安装版本链接是:vsearch; MAC版本的下载链接是：MAC_vsearch
)

usearch+vsearch实战操作

文中使用所有文件下载链接：https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密码：dmfy 然后我们将下载好的测试数据放在工作目录下面。

首先是vsearch的安装：

在linux中我们直接执行以下命令就可以直接安装了

##如何安装vsearch
wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz
tar xzf v2.6.2.tar.gz
cd vsearch-2.6.2
./autogen.sh
./configure
make
make install  # as root or sudo make install

mkdir -p seq # 原始数据 raw data

要想灵活的玩转vsearch加usearch软件，那我们首先要知道usearch免费版本的软件究竟是在你的分析流程中的哪几个步骤限制了你的数据量大小，这样我们就可以在有需要替换的步骤用vsearch软件进行替换了。当你拿到拆分好的扩增子数据后我们通过进行的数据处理流程如下图所示：(FIG.4)

从图中我们可以看到usearch在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的vsearch步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。转化成一个可读的OTU table了。

Vsearch使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results

# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件

#Merge paired reads and label samples

# 测序数据解压
gunzip seq/*

# 依照实验设计批处理并合并

for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout  temp/${i}.merged.fq
done 

for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastx_filter temp/${i}.merged.fq  --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. &
done

# 合并所有样品至同一文件
cat temp/*.merged.relabe.fq > temp/all.fq
ls -l temp/all.fq
less temp/all.fq
# remove useless file 
rm temp/*.merged.fq
# 压缩原始文件节省空间
#gzip seq/*
# 3. Cut primers and quality filter
# Cut barcode 10bp + V5 19bp in left and V7 18bp in right
vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq
# 质量控制fastq filter, keep reads error rates less than 1%
vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa
#761431 sequences kept (of which 0 truncated), 5627 sequences discarded.

less temp/filtered.fa

# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余，推荐使用vsearch，并添加miniuniqusize为8，去除低丰度，增加计算速度
vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2

## 如果用基于reference的去嵌合，# 细菌推荐用Gold数据库去除嵌合体可以下载rdp_gold.fa作为reference数据库 
#wget http://drive5.com/uchime/rdp_gold.fa
#然后执行下面这条注释过的命令
#wget http://drive5.com/uchime/rdp_gold.fa
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa

#聚类分析生产OTU代表性序列
vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc
## 嵌合体的检测与去除
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa

# Create OTUs table创建OTU表格

vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txt

Reference

Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.
Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016