MicroPIT挑选进行宏基因组测序分析

做扩增子测序后,你也一定还会想要进行shutgun宏基因组测序, 但宏基因组测序单个样品价格又太高不可能把你的每个样品都去进行宏基因组测序。 所以这时我们就可以利用microPITA进行样品预测,挑选出合适的样品。该分析是基于大量微生物多样性的数据,根据不同指标筛选出代表性样本,开展宏基因组研究,关于microPITA的介绍如下:
另:microPITA分析需要您提供otu taxa table,并告知分组情况即可;

microPITA 支持2种数据格式:pcl和biom文件。Biom文件大家都很熟悉,主要来介绍一下pcl文件:

默认的格式如上图所示:
1. 第一行为样品的ID。
2. 之后样品的相关信息,如:分组信息。
3. 在元数据之后则是数据了。
4. 第一列应为对应行的名称。如果名称中有级别关系,则使用‘|’进行分割。
5. 每一列用制表符切割。

microPITA有多种基础的筛选方法供我们选择:4种无监督方法,2种有监督方法。
 
无监督方法
diverse:挑选α多样性最高的样本。
extreme:根据β多样性挑选最极端的样本。
representative:根据β多样性挑选最能反映整体差异特征的代表性样本。

lastmeta 是使用pcl文件时需要使用的参数,用来指出最后一行的元数据。
-m:选择筛选的方法。
Input/Test.pcl,Input/Test.biom是输入文件。
output.txt是结果文件。

还有另一种无监督方法--features:给定一组特征物种等,根据丰度来挑选特征样本。 相较于上面的筛选方法,该方法需要添加一个参数--targets用于读入包含特征物种的文件。该文件中每个特征物种要单独一行。如下:

有监督方法
Distinct:根据表型/分组特征,挑选表型/分组之间β多样性距离最大的样本。
Discriminant:根据表型/分组特征,挑选各表型/分组中距离中心点最近的样本。
--label 用于指出有分组信息的行。

一些常用参数
-n 输出样本数量。
--id 如果样品id不在第一行,使用该参数来指定id行。
--delim 修改默认的定界符(制表符)。
--featdelim 修改物种名中默认的分级符(‘|’)。
输出结果:

结果很简单,他会直接输出各种参数下的你的样本的id。


猜你喜欢

转载自blog.csdn.net/zhouxin518/article/details/80214200