构建非冗余rRNA数据库

构建非冗余rRNA数据库

参考riboPicker官网文档

下载并安装riboPicker

wget https://excellmedia.dl.sourceforge.net/project/ribopicker/standalone/ribopicker-standalone-0.4.3.tar.gz
# 解压即可使用
tar -zxvf ribopicker-standalone-0.4.3.tar.gz

主要为了使用该软件自带的格式化脚本; 自带的bwa程序版本是0.5.9-r16.

下载并格式化数据

SILVA数据库

# 下载SILVA数据库,目前最新版本r132
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_SSURef_tax_silva_trunc.fasta.gz
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_LSURef_tax_silva_trunc.fasta.gz
gunzip *gz
# 格式化SILVA数据库序列
perl formatSilvaData.pl SILVA_132_SSURef_tax_silva_trunc.fasta ssr132
perl formatSilvaData.pl SILVA_132_LSURef_tax_silva_trunc.fasta slr132

RDP数据库

# 下在RDP数据库genbank格式文件,最新版本11.5
wget http://rdp.cme.msu.edu/download/current_Bacteria_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Archaea_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Fungi_unaligned.gb.gz
# 合并所有文件
cat *gb.gz > all_11.5.gb
# 格式化
perl formatRdpData.pl all_11.5.gb rdp1105

GreenGenes数据库

wget http://greengenes.lbl.gov/Download/Sequence_Data/Greengenes_format/greengenes16SrRNAgenes.txt.gz
gunzip greengenes16SrRNAgenes.txt.gz
perl formatGreengenesData.pl greengenes16SrRNAgenes.txt gg

Rfam数据库

下载RF00001和RF00002两个family的序列.

# 格式化序列文件
perl formatRfamSeqs.pl RF00001.fasta.txt rfam5s141
perl formatRfamSeqs.pl RF00002.fasta.txt rfam58s141

合并数据库

cat ssr132.fasta slr132.fasta rdp1105.fasta gg.fasta rfam5s141.fasta rfam58s141.fasta > all.fa
# prinseq软件,rrnadb.fasta即为非冗余rRNA数据库
prinseq-lite.pl -log -verbose -fasta all.fa -derep 12345 -out_good rrnadb -out_bad all_reps

猜你喜欢

转载自blog.csdn.net/weixin_34197488/article/details/91031304
今日推荐