利用metaphlan2结果计算alpha多样性

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/m0_37526339/article/details/88531786

前期回顾

MetaPhlAn2是分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,可以基于宏基因组数据,获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种,也可以追踪和研究。
MetaPhlAn2整理了超过17000个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物,汇编整理了100万+类群特异的标记基因,可以实现:

  • 精确的分类群分配
  • 准确估计物种的相对丰度
  • 种水平精度
  • 株鉴定与追踪
  • 超快的分析速度

结果展示

输出结果为各层级物种相对丰度值,但是这样的表格并不合适进行α多样性的分析

SampleID Metaphlan2_Analysis_1 Metaphlan2_Analysis_2 Metaphlan2_Analysis_3
k__Archaea|p__Euryarchaeota|c__Methanobacteria 0.31692 0 0.14969
k__Archaea|p__Euryarchaeota|c__Methanococci 0 0.00208 0.00174

所以我们需要将MetaPhlAn2的结果转成STAMP的格式

格式转化

metaphlan_to_stamp.pl ./taxonomy.tsv > ./taxonomy.spf

以上程序可以在https://github.com/LangilleLab/microbiome_helper上下载到
因为去掉了重复的分层注释,所以STAMP结果是

Kingdom Phylum Class Metaphlan2_Analysis_1 Metaphlan2_Analysis_2 Metaphlan2_Analysis_3
k__Archaea p__Euryarchaeota c__Methanobacteria 0.31692 0 0.14969
k__Archaea p__Euryarchaeota c__Methanococci 0 0.00208 0.00174

什么是α多样性

α-多样性(α-diversity)指局部区域的物种数量。

什么是Shannon指数

Shannon指数,也称香浓指数,也是在α多样性分析中常见的概念, 在1963年由Shannon和Wiener首先提出来。Shannon指数不只关心物种丰富度,而且同时关心物种的均匀度(Evenness),所以是对群落结构的更综合性的反应。它的具体算法是:

H=-∑(Pi)(log2Pi)
其中Pi是样品中属于第i种的个体的比例,如样品总个体数为N,第i种个体数为ni,则Pi=ni/N。Shannon指数的总体理念是为了预测下一个采集的物种是什么,因此它是对采集物种的不确定性进行分析。如果群落的多样性越高,那么下一个采集到物种的不确定性更大。

举个例子,如果X群落只由4个物种M组成,Y群落由各一个E、F、G、H物种组成,那么在连续采样的时候,X群落中,第一个采样的是M,第二个还是M,这个结果是肯定的,因此X的多样性更低。而Y群落,第一个采E之后,第二个有同样的可能性采到其他三个种,因此相比X来说,Y的不确定性更大,多样性则更高。

对于Shannon指数的计算方法来说,我们举个例子进一步说明,如果:

A群落:甲2、乙2、丙2,则各物种比例为甲(0.33),乙(0.33),丙(0.33)
B群落:甲4、乙1、丙1,则各物种比例为甲(0.67),乙(0.17),丙(0.17)

通过计算可以得到,群落A的Shannon值=-〔0.33(log20.33)+0.33(log20.33)+0.33(log20.33)〕=1.58,同理,群落B的是Shannon值为1.26。数值显示,群落B的α多样性比群落A的低,这是由于群落B的物种均匀度更低所引起的。

Shannon指数如何计算

如果不考虑低丰度问题,我们可以根据以上转化为.spf为后缀的文件进行计算,以class为例进行。因为香浓指数实际上是对群落物种的个数进行计算,所以我们将表格进一步转化,非零的单元格全部转为1,转化后的表格如下

Kingdom Phylum Class Metaphlan2_Analysis_1 Metaphlan2_Analysis_2 Metaphlan2_Analysis_3
k__Archaea p__Euryarchaeota c__Methanobacteria 1 0 1
k__Archaea p__Euryarchaeota c__Methanococci 0 1 1

最后根据公式进行计算(以excel的公式书写方法):
Metaphlan2_Analysis_1的Shannon指数:-(1/1)*log((1/1),2)=0
Metaphlan2_Analysis_2的Shannon指数:-(1/1)*log((1/1),2)=0
Metaphlan2_Analysis_3的Shannon指数:-[(1/2)*log((1/2),2)+(1/2)*log((1/2),2)]=1

我们也可以看出Metaphlan2_Analysis_3的多样性是大于Metaphlan2_Analysis_1和Metaphlan2_Analysis_2

猜你喜欢

转载自blog.csdn.net/m0_37526339/article/details/88531786