从宏基因组序列中提取16S序列

实际构建系统发育树中,由于全基因组太大,我们没法对其所有基因进行对齐以及系统发育树的构建,这时候我们可以提取基因组中的一些分子标记基因及保守基因进行系统发育树的构建。 我们用REAGO对shutgun 测序数据中的进行16S序列进行抽提,比如做完质控后的双端fasta序列,那么我们就可以把其对应的16S序列从宏基因组数据中提取出来用于物种鉴定以及系统发育树的构建。

优点:从宏基因组中提取的16S不会因为PCR扩增而引入错误,并且不会因为扩增子测序时的引物偏好性而漏掉一些物种。

直接在Github上下载Python包,https://github.com/chengyuan/reago-1.1 放在指定目录。 该Python包依赖Python2.7以及 Infernal 1.1.1; Readjoiner 1.2 (http://genometools.org/pub/nightly_builds/)这两个软件。

软件安装

$ bash
$ export PATH=/home/opt/gt-1.5.2-Linux_x86_64-32bit/bin:$PATH

Step 2: Run reago (you must ensure the sequence names of a read pair to be XXXX.1 & XXXX.2):

# 首先鉴定16S序列,输入文件为fasta格式的双端文件
python filter_input.py sample_1.fasta sample_2.fasta filter_out cm ba 10
#然后是对16S序列进行组装,设置最小序列长度为101个碱基
python reago.py filter_out/filtered.fasta testing -l 101

Step 3: Look at your exported 16S genes:

$ head testing/full_genes.fasta
>gene_1_len=1641
AAAGTCAATTTCTTTGGGTCTAACGACTCAAAGTATTTTTTAGCCGGATCAAACAGATTAAACTCTACAACGGAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAACACATGCAAGTCAAAGGAAAGCAGCTTCGGCTGGGAGTACTTGGCGCAAGGGTGAGTAACGTATAGGTAATCTGCCCTTTGGACTGGAATAACCCCGAGAAATCGGGGACAATACCAGATGAAGCAGCGACAATCGCATGGTTGTTCTGCCAAAGATTTATCGCCAAAGGATGAACCTATATCCCATCAGGTAGTTGGTAAGGTAACGGCTTACCAAGCCTACGACGGGTAGCTGGTCTGAGAGGATGATCAGCCACATTGGAACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTGAGGAATATTGCGCAATGGGCGAAAGCCTGACGCAGCAACGCCGCGTGGATGATGAAGTTCTTCGGAATGTAAAGTCCTTTTGTAGAGGAAGAATATCCCGGTTTACCGGGACTGACGGTACTCTGCGAATAAGCCACGGCTAACTCTGTGCCAGCAGCCGCGGTGATACAGGGGTGGCAAGCGTTGTCCGGATTTACTGGGTGTAAAGGGTGCGCAGGCGGGCCGATAAGTCGGGGGTTAAATCCATGTGCTT
>gene_2_len=1636
CTTTCGAGCGCTGTGAGGCTGGTTCCTCTGTTGACCTCCGTCAACAGATGGTAACCCTTCAGGTTTCAAACGAGAGTTTGATCCTGGCTCAGAATCAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACAAGAAAGGGACTTCGGTCCTGAGTACAGTGGCGCACGGGTGAGTAACACGTGACTAACCTACCCTCGAGTGGGGAATAACTTCGGGAAACCGAGGCTAATACCGCATAATACCCACGGGTCAAAGGAGCAATTCGCTTGAGGAGGGGGTCGCGGCCGATTAGCTAGTTGGCGGGGTAATGGCCCACCAAGGCAGTGATCGGTATCCGGCCTGAGAGGGCGCACGGACACACTGGAACTGAAACACGGTCCAGACTCCTACGGGAGGCAGCAGTGGGGAATTTTGCGCAATGGGGGAAACCCTGACGCAGCAACGCCGCGTGGAGGATGAAGTCTCTTGGGACGTAAACTCCTTTCGATCGGAACGATTATGACGGTACCGGAAGAAGAAGCCCCGGCTAACTTCGTGCCAGCAGCCGCGGTAATACGAGGGGGGCGAGCGTTGTTCGGAATTATTGGGCGTAAAGGGTGCGTAGGCGGTTCGGTAAGTTTGATGTGAAATCTTCGGGCTCAACTCGAAGTCTGCATCGAAAACTGCCGGGCTTGAGTGTGGGAGAGGTGAGTGGAATTTCCGGTGTAGCGGTGAAATGCGTAGATATCGGAAGGAACACCTGTGGCGAAAGCGGCTCACTGGACCA

猜你喜欢

转载自blog.csdn.net/zhouxin518/article/details/83302564
今日推荐