非冗長データベースrRNAの構築

非冗長データベースrRNAの構築

参考riboPicker 公式サイトのドキュメント

riboPickerをダウンロードしてインストール

wget https://excellmedia.dl.sourceforge.net/project/ribopicker/standalone/ribopicker-standalone-0.4.3.tar.gz
# 解压即可使用
tar -zxvf ribopicker-standalone-0.4.3.tar.gz

主にフォーマットされたスクリプトに付属のソフトウェアを使用するためには、バージョン0.5.9-R16が付属していBWAプログラム。

ダウンロードとフォーマットデータ

SILVAデータベース

# 下载SILVA数据库,目前最新版本r132
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_SSURef_tax_silva_trunc.fasta.gz
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_LSURef_tax_silva_trunc.fasta.gz
gunzip *gz
# 格式化SILVA数据库序列
perl formatSilvaData.pl SILVA_132_SSURef_tax_silva_trunc.fasta ssr132
perl formatSilvaData.pl SILVA_132_LSURef_tax_silva_trunc.fasta slr132

RDPデータベース

# 下在RDP数据库genbank格式文件,最新版本11.5
wget http://rdp.cme.msu.edu/download/current_Bacteria_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Archaea_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Fungi_unaligned.gb.gz
# 合并所有文件
cat *gb.gz > all_11.5.gb
# 格式化
perl formatRdpData.pl all_11.5.gb rdp1105

GreenGenesデータベース

wget http://greengenes.lbl.gov/Download/Sequence_Data/Greengenes_format/greengenes16SrRNAgenes.txt.gz
gunzip greengenes16SrRNAgenes.txt.gz
perl formatGreengenesData.pl greengenes16SrRNAgenes.txt gg

RFAMデータベース

RF00001と2のシーケンスRF00002ファミリをダウンロードしてください。

# 格式化序列文件
perl formatRfamSeqs.pl RF00001.fasta.txt rfam5s141
perl formatRfamSeqs.pl RF00002.fasta.txt rfam58s141

データベースをマージ

cat ssr132.fasta slr132.fasta rdp1105.fasta gg.fasta rfam5s141.fasta rfam58s141.fasta > all.fa
# prinseq软件,rrnadb.fasta即为非冗余rRNA数据库
prinseq-lite.pl -log -verbose -fasta all.fa -derep 12345 -out_good rrnadb -out_bad all_reps

おすすめ

転載: blog.csdn.net/weixin_34197488/article/details/91031304